论文部分内容阅读
互联网、5 G及其相关产业的飞速发展使我们迈入了大数据时代,存储海量数据将面临着巨大挑战。为了解决大数据存储中存储节点失效的问题,具有容错能力且节约存储资源的分布式存储编码成为大数据时代重点研究的核心技术之一。Piggybacking编码作为分布式存储编码中的一类,以其优异的节点修复性能和较高的存储效率,再加上其复杂度低,设计灵活等特点,最近几年受到了越来越多的关注。本论文主要面向数据的容错存储,针对存储中的节点修复问题,为大数据和移动数据的分布式存储编码提供理论基础,为海量数据的高效、可靠存储提供技术支撑。首先,本论文对传统的数据存储容错,即多副本机制和MDS码进行了概述。接着介绍了三种主要的分布式存储编码,即再生码(RGC)、局部可修复码(LRC)和piggybacking编码的基本原理、发展现状以及它们各自的优缺点,为后续深入地研究打好基础。其次,本论文针对一种用于修复校验节点的piggybacking框架提出了两种改进。在保持编译码复杂度基本不变的前提下,第一种针对修复校验节点的改进使得信息节点和校验节点的修复带宽均有不同程度地降低,且改进后piggybacking框架的设计更加灵活多变。第二种针对信息节点修复的改进,通过牺牲校验节点很小部分的修复带宽来换取节点数更多的信息节点的修复带宽是有意义的。再次,本论文先对广义piggybacking编码进行了深入研究,指出了其校验节点修复存在的部分问题。更重要的是,本文基于广义piggybacking编码框架首次提出了piggybacking编码的多节点修复策略。经分析得到了诸如修复节点数、保护列比例、设计列比例、信息节点数以及校验节点数等因素对多节点的最小平均修复带宽比率产生的影响。这对设计出多节点修复性能优良的piggybacking编码具有一定的参考价值。最后,本论文提出了一个全新的双层piggybacking框架(D-PB-1),通过最优化预留子条带比例((6)和捎带子条带比例(7)同时有效地修复了信息节点和校验节点,大大降低了修复带宽。经分析,当信息节点数6和校验节点数趋于无穷大时,所有节点的平均修复带宽比率无限接近于0。其次,本文又提出了改进的双层piggybacking框架(D-PB-2),通过改变修复信息节点的piggyback块的构造方式进一步降低了修复带宽。与其它piggybacking编码相比,这两类双层piggybacking编码不仅结构设计灵活,还拥有最佳的综合修复能力,尤其以D-PB-2表现最佳。接着本文还给出了双层piggybacking框架多例嵌套的模型,在保证修复性能不变的前提下,降低了piggybacking框架中的子条带数。最后,本文通过分析一种针对MDS码校验节点的构造方式,联系到改进的双层piggybacking编码的一种极端情况,揭示了它们修复本质相同的事实。另外,本文据此在理论上还给出了基本piggybacking框架节点修复下限的猜想。