论文部分内容阅读
本文基于国家自然科学基金项目,对云计算存储平台进行调研分析、平台搭建与优化。分布式文件系统目前十分广泛地用来处理大数据,作者所在实验室将其作为研究重点,其中的突出代表有HDFS、GPFS、LustreFS。分布式文件系统负责数据分布存储和数据管理,并提供对数据高吞吐量访问的性能。主要功能除了读写操作之外,还有一个就是数据校验功能,此功能在数据读写过程中都会运用到。它是数据完整性的良好保障。分布式文件系统在读写数据时读取一个文件块可能由于存储设备、网络或者软件的缺陷等原因而出现损坏的情况。对于大数据处理,原本复杂繁重的计算任务再加上数据校验过程会给分布式文件系统带来额外负担,读写速率也会随之有所下降,这就需要建立一个完整的体系,在保证数据完整的情况下尽量减小因为数据校验而给系统带来的影响。LustreFS有两种Checksum模式:一种是内存模式(数据在客户端缓存时),另一种是线路模式(数据在网络线路中传输时),来保障数据完整性。GPFS通过自身磁盘、网络共享磁盘(NSD)、GPFS文件设备三层架构的机制保证数据完整性之外,还运用三种可用性判断机制:File System Descriptor Quorum、Node Quorum、Tiebreaker Quorum来保证数据完整性与系统安全。HDFS作为Hadoop的核心部分,是Hadoop中MapReduce框架的存储层,也可以像Lustre、GFS等系统一样作为独立的分布式文件系统存在。HDFS通过CheckSum和DataBlockScanner两种方式同时来保证保存在数据节点上的数据时完整的。HDFS中的DataNode在本地文件系统存储数据块的元数据用于CRC校验。对于每一个块,向DataNode请求checksum信息,返回的信息中包括块的所有checksum的MD5摘要,如果向一个DataNode请求失败,会向另一DataNode请求,最后将所有块的MD5合并,并计算这些内容的MD5摘要。本文的主要工作有以下几个方面:(1)介绍本文研究背景,引出分布式文件系统中数据完整校验这一概念,并对相关技术进行介绍分析。(2)分析比较分布式文件系统的数据完整性保障机制,详尽介绍GPFS、LustreFS、HDFS数据完整性校验方式。重点剖析HDFS数据传输过程中校验和的计算方式、Hash算法和数据传输方式。(3)根据前面铺垫,建立分布式文件系统数据校验模型DFS-DICM。(4)根据模型,针对数据写过程、缓存分配以及CRC32校验算法本身分别进行变体优化,从而提高计算效率,增强系统性能。(5)针对改进措施使用HDFS作为实验平台,通过自带测试系统benchmark对其进行整体和个体的性能测试,对数据传输过程中的负载平衡以及CRC32算法优化对系统影响分别进行试验。(6)对实验结果进行对比分析,得出结论,对下一步工作进行展望。