论文部分内容阅读
随着信息化程度的不断提高,企业的分支机构之间的数据通信需求急剧增长,尤其近年来,随着数据量的增大,有限的广域网带宽已不能满足企业级用户的数据传输需求。针对WAN带宽不足、时延过长等问题,探讨了广域网数据传输中,采用重复数据消除技术对传输数据进行优化,以减少带宽占用,提高数据传输效率。论文的主要任务是研究重复数据消除技术,并应用于广域网数据优化中,设计并实现了广域网重复数据消除方法。重点研究了数据分块算法,在基于内容的变长分块算法(CDC,Content Defined Chunking)的基础上结合滑动块检测技术,运用并行过滤的思想筛选出数据集中的高度冗余数据进行二次分块,从而,在相同的检测粒度下,实现更高的重复数据缩减率。针对处理数据量增大后,元数据字典无法全部驻留在内存中的问题,设计内存数据字典和磁盘数据字典两级存储结构,并采用多级检索机制提高检索效率。最后,设计并实现了数据字典的同步机制和重复数据编解码方法。实验结果表明,对于存在潜在关联的数据集,广域网重复数据消除系统可以提供10:1甚至更高的压缩比,从而节省60%至90%的网络带宽。将重复数据消除技术应用于广域网数据优化系统中,能够有效降低带宽占用量,进而提高广域网数据传输效率。