论文部分内容阅读
云存储利用集群应用、网格技术、分布式文件系统等技术,将网络中海量异构存储设备通过应用软件和网络整合起来协同工作,共同对外提供数据存储和访问功能,其核心是数据存储和管理。云存储服务的兴起意味着云中数据占用空间及带宽越来越大,数据也从简单的处理对象开始转变成为了一种基础性资源,这使得资源安全风险也随之增大,为此,要求快速备份和恢复的时间点越来越多,造成了管理数据的成本及开销巨大。云存储系统中数据资源的安全存储、网络传输和高效利用已经成为了当前研究的核心问题。本文以提高数据资源管理效能为目标,将基于重复数据删除的数据精简技术、基于网络流量自回归特性的网络带宽利用率改进策略、基于离散动力学的敏感数据保护方法相结合,提出了一套基于云存储系统的数据资源管理模型架构,具有重要的理论意义和应用价值。本文的贡献和创新工作如下:(1)针对数据查重过程中面临的磁盘瓶颈问题,提出了一种优化的重复数据删除方案Simdedup,从相似度较高的数据对象会包含较多的重复数据的角度出发,构建数据块指纹的分级索引,并基于相似数据检测技术进行数据块指纹的查重操作。实验结果表明,该方案能够准确地找出相似数据对象并构建查重索引,提高了重复数据删除的性能。(2)针对去重过程生成的元数据冗余问题,提出了一种基于压缩近邻的查重元数据去冗算法Dedup2,算法基于查重元数据的一致子集,消除相似度较高的元数据,以获得较小查重子集。实验结果表明,Dedup2在保持相近的重复数据删除比的基础上,能够将查重元数据压缩到原来的50%以下,进一步降低了存储资源开销。(3)针对网络重复数据传输造成的网络带宽利用率低下问题,提出了一种基于网络流量自回归技术的网络数据去重算法ARTRE,将待传输数据分割成多个传输单元,建立网络当前运行状况模型,通过设计基于预测网络可用带宽的动态自组织调整传输策略,提高网络带宽利用率。实验结果表明,在10MB/s的带宽条件下,传输吞吐量是传统的采用重复数据删除方法的7倍,该策略能够充分利用网络带宽以实现更高的数据传输效率,有较强的网络适应性。(4)针对云存储环境下的数据安全问题,提出了一种基于离散动力学的数据隐私保护算法EPPA,利用混沌映射加密和三维空间拆分置乱,能够有效地保护云存储系统中的用户敏感数据信息不会泄露给攻击者和云系统管理人员,从而保障数据机密性。EPPA将数据在三维空间中进行映射、置乱、拆分,利用混沌映射的初值敏感性和三维数据结构恢复的复杂度来保证数据的机密性。安全分析和实验结果表明,EPPA能够保证数据的机密性,且加密时间开销比传统的AES算法降低了85%。