论文部分内容阅读
大数据时代,全球数据量高速增长,给个人、企业和数据中心数据的管理和保护带来重大挑战。重复数据删除技术作为一种高效的数据缩减技术被广泛应用于数据备份领域,随着系统规模的扩大和数据量的不断增长,为满足备份系统在吞吐量和可扩展性上的需求,出现了集群重复数据删除系统。然而,集群重复数据删除系统不仅面对着传统重复数据删除技术所面临的指纹索引磁盘瓶颈和个人设备计算资源不足的难题,还面临因只对集群节点内部数据进行独立消重而导致的集群重复数据删除服务器节点信息孤岛问题。针对以上难题和挑战,本文在全面了解当前重复数据删除技术发展的基础上,针对特定的应用环境,提出了两种不同的集群重复数据删除系统路由优化策略,主要工作和创新如下:首先,设计实现了一个集群重复数据删除原型系统,包括备份终端、元数据管理服务器和多个集群重复数据删除服务器节点。备份终端将文件按照固定大小分块方式进行分块,然后使用强抗冲突哈希算法计算数据块指纹,再将多个数据块聚合成超块进行路由以减小通信开销;元数据管理服务器进行文件备份的会话管理并存储备份文件的元数据信息;集群重复数据删除服务器节点负责指纹匹配和数据块的存储。其次,针对数据中心数据备份过程中与集群重复数据删除系统节点的通信开销进行优化,提出基于应用感知的路由机制AR-Dedupe。通过添加路由服务器节点保存历史超块路由节点信息和存储节点的负载状况,来指导新的超块路由,有效减少节点间通信开销的同时获得了较高的全局数据缩减率,并且能够很好的保持系统节点的负载均衡。路由服务器节点针对不同应用建立相应的超块掌纹索引表,以加快掌纹索引效率。最后基于云环境下数据备份的集群重复数据删除系统,提出基于历史信息的一致性哈希路由策略HB-Dedupe。在集群存储节点识别备份终端热点(出现频率较高)指纹,然后保存在备份终端固定大小的buffer中,使用LRU算法进行替换,每次指纹索引前先在本地索引表中进行查询。通过三类真实数据集测试,可以减少20%~80%的指纹索引请求。