相邻重复数据块相似性去重性能优化研究与实现

来源 :中南民族大学 | 被引量 : 0次 | 上传用户：cainiao13939867

【摘要】

：

随着信息全球化的到来,全球数据总量呈爆炸式增长,然而物理存储资源的增长速度远低于数据总量的增长速度,传统的存储方式也亟待改进。根据统计,存储系统中存在着大量的冗余数

【作者】

：

谭佳豪

【出处】

：

中南民族大学

【发表日期】

：

2004年期

【关键词】

：

重复数据删除相似性 DELTA压缩数据清理

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息全球化的到来,全球数据总量呈爆炸式增长,然而物理存储资源的增长速度远低于数据总量的增长速度,传统的存储方式也亟待改进。根据统计,存储系统中存在着大量的冗余数据,正是这些相同或者相似的冗余数据导致了数据总量的爆炸增长。重复数据的删除技术可以有效识别并删除存储系统中的重复数据,因此在各个存储相关领域中被普遍运用。但是作为一种新兴的技术,依然存在有很多需要改进的地方,如重复数据删除索引在未命中的情况下的额外开销、低效率的相似检测方案以及对于零引用数据块的存储造成的资源浪费等。针对文件备份系统,为了改进以上不足,从而提升系统性能,设计提出了基于重复数据块相邻数据块相似性的重复数据删除方案。重复数据的删除系统首先要将数据流进行一定处理——数据分块,使其能够更好地进行重复数据检测。由于不同的分块算法,所得到的数据块会有很大区别,并且会直接影响到删除重复的数据的效果。通过对不同分块算法对比后,本文所设计的方案选择滑动块技术对数据流进行划分。在对数据块进行检索之前需要对数据块进行散列运算得到其指纹。指纹代表着与之对应的数据块,是进行重复检测的基本单位。不同的散列运算算法计算出的指纹的精度也有不同,并且发生哈希碰撞的可能性也有区别。本文选用160位的SHA-1安全哈希算法,其发生哈希碰撞的概率分布区间为2-55-2-75,能够满足系统的需要。由于在PB级存储系统中,其指纹索引过大无法完全存放在内存中,导致需要访问硬盘,这就给检索带来了更多的开销。对此引入Bloom Filter。Bloom Filter能够快速的判断某个元素满足某集合与否。在进行重复数据删除相同检测之后,系统中依然存储有海量的相似数据。如果对所有数据块都进行相似检测是不实际的。为了更好更高效的检测相似数据,本文建立了一个数据块价值评价模型,基于此设定了一个相似检测的阈值。相似检测的阈值是根据数据块在某一期的热度值和前一期的历史价值以及重复率计算得出。其中热度值是通过该数据块在这一期的被引用次数和最后访问时间计算得出。前一期的历史价值是根据前一期该数据块的热度值乘以一个控制参数计算得出,是为了防止发生抖动而提出的。通过相似检测阈值判定数据块是否需要进行相似度检测,从而提高相似检测的效率。在进行重复的数据删除之后,系统中仍然会存在零引用的数据块。这些零引用的数据块需要进行清理。通过之前设定的序数参数可以判定数据块是否是零引用,即当序数参数等于零的时候,则表明该数据块没有被引用,所以可以被清理。但是如果直接删除该数据块可能会引起系统抖动,为防止系统出现抖动,再次引入前文中设置的时间参数和历史参数,避免删除当期被引用过的数据。本文结合分布式平台Hadoop构建实现了本方案。通过实验表明在引入布隆过滤器之后四次测验系统平均吞吐率从756.3MB/S提高到832.5MB/S,提升了10.08%;对比DDFS Indexing和Extreme Binning的重复数据删除率和吞吐率,Adj-Dedup的重复数据删除率高于Extreme Binning略低于DDFS Indexing,而Adj-Dedup的吞吐率高于800MB/S,Extreme Binning约为500MB/S,而DDFS Indexing吞吐率低于200MB/S。本文所设计的重复数据删除方案,具有较好的系统性能。

其他文献

2000例颞下颌关节紊乱病统计分析

目的:对2000例颞下颌关节紊乱病(temporomandibular disorders,TMD)病例数据进行统计分析,研究TMD流行病学趋势,探讨TMD危险因素与临床症状、影像学检查与主诉症状间相关性,为临床医生对颞下颌关节紊乱病的诊断、治疗及预防提供参考。方法:收集2014-2019年天津医科大学口腔医院颞下颌关节科2000例临床病例,使用EXCEL录入及整理TMD患者性别、年龄、职业、主诉

学位

颞下颌关节紊乱病统计分析偏侧咀嚼预防

微波及机械活化辅助碱性氧化浸出手机元器件中的锡、铅、锌

废旧手机数量的急剧增长,使人类环境、资源都再次面临挑战,若得不到合理处置就会造成环境污染及资源浪费的问题。废旧手机元器件中除含有铜、铁、镍等金属,金、银、钯含量也

学位

手机元器件碱性浸出微波机械活化两性

T街道社区组织文化建设方案设计

基层社区在保持社会健康发展中具有基础性、复杂性、群众性、延续性等性质,基层社区工作者能否有一个健康和谐的工作环境,对于社区各项工作的开展有重要的影响。本文结合自己

学位

街道社区干部群众凝聚力组织文化

威廉姆斯的生态学马克思主义及其当代价值研究

威廉姆斯是美国新一代成长起来的生态学马克思主义学者,他在继承前一代生态学马克思主义学者,如伯克特,福斯特等人的理论基础之上,又根据当代西方国家所遇到的生态危机提出了自己新的理论。他重新探讨了生态危机是否危及人类社会发展存在自然上限的问题,总结了西方国家在环境问题上的成败得失,回顾了苏联所走过的生态治理路线中的波折与教训,展望了未来生态运动应该秉持的方向等等,他的理论是对当下生态问题中的热点予以回应

学位

威廉姆斯资本主义生态社会主义生态危机

山西省工业格局与工业用地差异性管理研究

在土地利用过程中众多问题有待解决、工业发展转型的特殊性关键时期,工业用地的利用效率以及全省整体工业格局合理与否直接决定着该省是否可以实现工业用地的高效利用,土地利

学位

山西省工业格局工业用地效率差异性用地管理

不同改良剂对污灌铬污染土壤化学性状及生菜的影响

污水中含有植物生长的营养物质,污水灌溉不仅带给作物营养物质的同时,也把污水中的有害物质带入土壤,如何利用污水灌溉的土壤,是当今农业不能回避的现实问题。铬是目前土壤重

学位

土壤改良剂铬污染土壤生菜

融合挠度和频率的梁桥结构预应力损失评估研究

预应力筋的有效或失效直接关系到预应力混凝土桥梁的安全性、适用性与耐久性。预应力筋中的现存预应力与结构的工作状态密切相关,所有预应力损失的检测是预应力结构健康检测

学位

预应力混凝土梁预应力损失挠度频率静动刚度

基于问题的学习在高中英语写作教学中的应用研究

《普通高中英语课程标准》的总目标明确提出要培养学生自主学习和合作学习的能力,形成有效的英语学习策略,发展综合语言运用能力。英语写作作为一项重要的语言技能,是反映综

学位

基于问题的学习英语写作教学高中

不确定环境下微电网经济运行的建模与优化方法研究

化石燃料能源日益紧缺、环境不断恶化、全球气候变暖,可再生能源的开发利用成为各国政府关注的焦点。提高分布式清洁能源接入电网的比例,优化控制各个分布式电源的出力,是微

学位

微电网不确定性经济运行在线优化近似动态规划

烧结矿竖式移动床层气固传热系数及(火用)传递系数的实验研究

烧结矿余热竖罐式回收是本课题组提出的一种具有知识产权的余热资源高效回收工艺,其吨矿发电量有望比现有指标提高100%。竖罐内烧结矿与作为热载体的冷却空气之间的传热是关

学位

烧结移动床余热回收传热系数(火用)传递系数

相邻重复数据块相似性去重性能优化研究与实现

其他学术论文