高效可靠存储系统优化关键技术研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:aaaaeeettjj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机系统的核心是对数据的处理,因此对于任何计算机系统而言,没有可靠的数据存储,就谈不上数据的处理和应用。大数据时代无处不在的数据爆炸式增长对现在存储系统提出了更高的要求。一方面,存储系统规模增大导致数据丢失日益频发,更加突出了系统可靠性的重要地位。另一方面,数据总量的暴涨使得现有存储系统实现高效存储显得尤为重要。同时,纠删码技术凭借相对较低的存储代价已逐渐替代三副本技术,应用于各式存储系统并成为主流;另外,重复数据删除技术能够直接去除重复的数据容量,从而显著地调高存储系统的存储效率,因此成为研究热点,并被广泛采用。本文着眼于高效可靠存储系统,即采用了重复数据删除技术和/或纠删码技术的存储系统,旨在从性能优化的角度,具体从编码优化,数据布局,数据更新,数据缓存等四个方面的内容开展研究。本文主要工作及创新如下:1.提出了一种面向单盘快速恢复的基于Raid-6编码扩展方法扩展RAID-6编码的各类现有方法仅从系统可靠性的单一角度进行考虑,从而导致了新增的第三个冗余设备在各类数据重构过程几乎没有被使用,无法对数据重构产生助力。本文从系统可靠性和重构性能两个角度出发,提出了一种面对快速数据重构的RAID-6编码扩展方法RAID-6Plus。该方法从更大程度实现重叠元素复用的角度出发,对第三个冗余设备进行特殊编码,从而使得新增的冗余设备能够在各类数据重构情况下提供部分重构所需的数据,以减少和均衡重构时的开销,从而实现快速恢复。该方法被显式地应用于常见的RDP和X-code编码,分别生成了两种新的编码方案RDP+和X-code+。性能评估表明,与RTP和STAR相比,RAID-6Plus表现出更好的快速重构性能;与RAID-6相比,RAID-6Plus具有更高的可靠性。2.提出了一种请求感知的全局局部双均衡的重删数据放置方法现有存储系统在部署重复数据删除模块时,直接继承了原生系统的简单轮转放置方法或者随机放置方法。以上两者简单的数据放置方法都直接忽略了去除重复数据之后数据序列改变对后续读取访问的影响。因此,系统中往往出现无法有效利用系统读并行性的现象。本文针对一类常见的部署了重复数据删除模块的小型高效存储系统,其内部传输带宽充足,并存在良好的并行性,提出了一种具有请求感知重删数据放置策略GLE-Dedup,以实现去重后非重复数据的全局和本地均匀放置。GLE-Dedup是一种粗粒度的组放置策略。该策略在保持全局存储均衡的情况下,实现了单个请求内部数据块位置信息的感知,从而对非重数据能够实现一种指导性放置,以此避开拥堵的节点,最终更好地利用系统的读并行性,获得更好的读取性能。实验结果表明,GLE-Dedup能够有效提升系统读取性能。相比于基准参考对象B-Dedup(简单轮转放置)和R-Dedup(随机放置),GLE-Dedup的系统平均读延迟性能分别提高了大约18.9%和24%。3.提出了一种基于重删纠删双感知的均衡数据放置方法现代存储系统同时应用了重复数据删除技术和纠删码技术来实现的高效可靠存储。然而,这类混合系统简单地继承了原生系统的数据放置方法,在系统层面上缺少对重复数据删除技术和纠删码技术的适应性调整,从而造成系统中的“读取不平衡”问题,即系统自身的读并行性受到性能缓慢节点的限制,无法得到有效利用。因此本文提出了一种基于重删纠删双感知的均衡数据放置方法DA放置。该方法能够同时实现对重复数据删除和纠删码的有效感知,从而根据两者对原数据序列的改变,进行有指导性的数据放置,保证后续读取时更好地利用系统读并行性,实现系统读性能的整体提升。实验结果表明,DA放置方法明显地提升了系统读取性能。在默认系统配置下,相比于基准参考对象B-Dedup(简单轮转放置)和R-Dedup(随机放置),DA放置方法在系统平均读延迟上分别提高了大约30.86%和29.63%。4.提出了一种基于双级中继的均衡纠删码数据更新方法现有纠删码存储系统沿用传统的星型传输方式来完成因数据更新导致的对应校验内容的更新。该方法并没有充分考虑系统的网络特性,从而导致了大量的跨机架间流量,加剧网络拥塞,加重系统瓶颈,同时还可能出现存储节点的单点瓶颈等问题。针对以上问题,本文提出了一种基于双级中继的均衡数据更新方法DR-Update,并给出了纠删码系统中数据更新问题的具体数学描述和DR-Update详细的设计方法。DR-Update利用了中继转发的方法来缓解更新发生节点上可能出现的单点瓶颈,并通过整合机架内流量,利用机架间中继的方法来减少不必要的跨机架间流量,从而达到节约系统中稀缺网络资源,缓解网络压力的目的。同时,DR-Update也对更新过程中的负载均衡性进行了考虑。实验结果表明,DR-Update不仅可以有效地减少系统中冗余的跨机架流量,也能够更好地实现系统在节点级和机架级两级的负载均衡。相对于原更新方法,DR-Update能够有效地减少16%左右的跨机架间流量。5.提出了一种基于新近性和失效频次的失效数据缓存设计现有大数据存储系统认为临时性失效的数据会在一定时间内自动恢复正常,因此在其系统设计中,并没有对失效数据进行缓存和在多用户间实现其失效信息共享的机制,而是机械性地触发数据重构操作来生成失效的数据,并在完成原访问请求之后直接将其丢弃。这种基于简单假设的设计直接忽略了系统中失效事件发生的不确定性,在面临各类可能重复发生的单个或者多个数据的失效问题时,会造成大量的系统资源浪费和系统性能下降。针对以上问题,本文提出了一种基于新近性和失效频次的失效数据缓存设计GFCache,以期尽可能地减少原系统中单个或者多个数据失效时导致的冗余的数据重构操作,从而显著地减少系统资源浪费,提升系统性能。GFCache在综合考虑了失效数据的新近性(Recency)和其失效频次(Frequency)的基础上,设计了一种贪心预取的缓存策略。该策略不仅缓存失效数据,同时也缓存一定量的邻近的可能在近期发生失效的数据,其目的在于提高失效缓存的命中率。
其他文献
目前,社会的发展严重依赖化石燃料,然而,化石燃料的过度燃烧造成了一系列的环境问题和能源危机。因此,开发新能源取代旧能源是人类亟待解决的问题。氢气、氨气作为环保和可再
基于现代神经网络的煤炭质量数据分析与预测是采用神经网络结合深度学习的方法对煤质数据的发热量及销量进行分析和预测,以期达到对煤矿生产经营活动的辅助指导作用。煤质化
随着社交网络上活跃人群的增加,以及电子传媒对传统纸媒传播领域的占据,造成了社会人群习惯于通过较短篇幅的网站新闻获取时讯,网络信息变得细碎庞大。在社会急剧膨胀的信息
随着信息技术的高速发展,信息与数据的安全问题日益严峻。基于光学理论和方法的光学密码学,作为一种新型的信息保护技术,具有并行数据处理、安全性能高等优势,吸引了越来越多
无线传感器技术作为未来主导信息技术变革的四项技术之一,对人类社会有着重要的作用。无线传感器网络(Wireless Sensor Network,WSN)通常由密集部署的传感器节点组成,这些节
同时定位与地图构建(Simultaneous Localization and Mapping,SLAM)是机器人实现智能化的基础。目前,对于单机器人SLAM相关问题已经有了许多成熟的解决方案并在现实中得到了
燃气轮机作为全球顶尖类的科技制造产品,具有清洁、高效、节能、可靠性高等特点,在未来能源领域和环境保护方面有着十分重要的地位,燃气轮机主要由压气机、燃烧室和透平组成
近年来,随着计算机视觉科学的蓬勃发展,其应用技术已经对人们生活的方方面面产生了深远的影响,包括相机美颜、人脸识别、无人驾驶等。而图像处理作为计算机视觉的基础和核心,
火星与地球所处的宇宙环境十分相似,对火星开展探测,在寻找地外生命、研究地球大气与磁场演变等方面具有重要意义。利用漫游器对火星进行探测,是人类目前为止最有效的探测火
路径规划是生成从源位置到目的位置的路径的一个过程。路径规划会结合其适用对象及应用场景根据一定的衡量标准(如路径长度、运行时间等)在存在障碍物的情况下找到一条无碰撞