论文部分内容阅读
存储是云计算的一块基石。云计算环境下,存储面临着诸多挑战,如海量数据要求系统容量足够大、数据增加快要求系统有非常强的扩展性、高可用性要求系统低延迟、热点数据现象要求处理高并发请求等。特别是存储小文件时,元数据请求数量将是存储大文件时的成千上万倍。主从架构系统中元数据服务器将成为系统扩展的瓶颈。本文针对海量小文件的存储,主要取得以下几项研究成果: (1)提出了一个基于P2P的面向小文件的云存储架构。创新地引进了一个中心路由节点,中心路由节点保存资源与节点的映射关系,使资源查询平均跳数从0(log(n))降到0(1)。客户端通过预取中心路由节点数据得到文件与机器的映射关系表,进一步减少了一个网络来回的时间开销。实验表明新架构下,文件尺寸为1K~20K时读取时间约是HadoopHDFS系统的1/(500~200);文件尺寸为160K~1M时读取时间约是HadoopHDFS系统的1/(110~22);实验证明本系统读写吞吐量峰值约为是TFS的1.5倍,系统扩展性远优于TFS。 (2)由于系统的中心路由服务器存在单点故障问题,为了增加系统的可用性,本文提出了一种基于Trie树索引的快速构造算法,该算法利用索引字符串的统计信息,跳过了串行构造算法中的重复比较,实验表明快速算法时间优于串行算法和Aoe的DAT算法; (3)本文对类GFS(GFS-like)架构中元数据服务器进行了“去中心化”的研究,将元数据从元数据服务器移动到数据节点上,针对元数据和数据的一致性问题,提出利用主数据节点维护数据一致性的方法,同时提出了主节点选择协议;本文提出并实现了数据节点上小文件存储优化方案,将所有小文件合并为一个大文件,利用B+数对小文件进行索引,这样提高了数据节点的存储效率。