论文部分内容阅读
随着大数据时代的来临,每天都有大量的数据产生,如何将大量数据进行有效存储越来越受到关注。和集中式存储相比,分布式存储具有较高的可扩展性、可靠性和存储效率,更能适应大数据的存储需要。在分布式存储系统中常采用冗余存储来保证整个系统的可靠性,冗余策略主要有复制和编码两种方式。纠删码作为传统的编码冗余策略,存在修复带宽太大以及访问效率低的问题。网络编码和金字塔是两种新的编码方案,将网络编码应用到分布式存储中可以解决修复带宽太大的问题;采用金字塔码存储数据,可以提高分布式存储系统的访问效率。 基于网络编码的分布式存储,是将网络编码应用在节点修复的过程中,从而可以有效减小修复带宽。存储量和修复带宽之间存在权衡关系,在这条最优权衡曲线上的码称为再生码。有两类特殊的再生码,称为最小存储再生(MSR)码和最小带宽再生(MBR)码,分别对应有最小的存储量和最小的修复带宽。 金字塔码的主要思想是通过增加额外的冗余来换取访问效率的提高。有两类金字塔码,基本金字塔码和广义金字塔码。其中基本金字塔码是简单的由任意现有的码构造得到的,因此可以直接应用现有的编译码优化方法,而广义金字塔码则是一类从根本上改进的新码。 本文的主要工作包括:在前人工作的基础上,对基本金字塔码在有限域上进行了推广,将现有的基于(2)的基本金字塔码推广到GF(pm)上,从而为分布式存储提供了更灵活的编码方案;实现了用一种确定的MDS码一R S码来构造得到基本金字塔码;对分布式存储中的几种冗余策略进行了比较,具体工作内容如下 1、基于GF(pm)的基本金字塔码的构造、译码和多层扩展的研究。本文研究了在GF(pm)上构造基本金字塔码的方法和与之对应的基本金字塔码的译码过程。本文还研究了如何将两层基本金字塔码扩展到多层。并分别通过例子具体说明了上述的构造、译码和多层扩展过程。 2、关于用一种确定构造的M DS码来生成基本金字塔码的研究。本文选取了一类重要的MDS码一R S码,研究了如何应用R S码来构造基本金字塔码,并用一个具体参数的RS码,完成了对基本金字塔码的构造和译码,对于金字塔码在分布式存储系统中的实际应用具有一定意义。 3、分布式存储中的几种冗余策略的比较。首先,在比特位上比较了GF(2)上的基本金字塔码和本文中推广的GF(pm)上的基本金字塔码的修复能力、平均读开销和平均修复开销。然后,从修复能力和平均读开销方面,比较了 RS码和由它构造得到的基本金字塔码。最后,对复制策略、最大距离可分(MDS)码、两层和三层构造的基本金字塔码进行了比较,并对比较结果进行了分析总结,为分布式存储系统选择编码方案提供了一定的参考。