基于Hadoop的分布式文件系统优化技术研究

被引量 : 19次 | 上传用户:rinimalebi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网的发展,网络中的数据量急剧增加,这些数据经过分析和挖掘后可以得到非常有价值的信息,这些信息可用于商业、科研、生产等各方面研究。急剧增长的海量数据如果使用传统的超级计算机来处理会带来高昂的花费、巨大的能源消耗,而云计算作为一种廉价、高效、可靠的解决方案得到了人们的关注。Hadoop是一个开源的云数据处理平台,可以广泛的应用于海量数据的处理和分析。云平台采用了分布式文件系统,著名的分布式文件系统有Lustre、GPFS(General Parallel File System)等,这些系统的设计都是基于大型机,不适合目前以微机为主的云计算环境。本文采用GlusterFS作为云平台的分布式文件系统,GlusterFS是一个适用于微机的分布式文件系统。本文首先要实现GlusterFS与Hadoop的核心模块Common的连接,这点的实现本文利用了GlusterFS自身的Translator机制,该机制能够实现所有GlusterFS的扩展功能。利用Translator中的库函数连接Hadoop的Common核心,获取相应存储权限并定义了org.apache.hadoop.fs.glusterfs类,然后创建符合GlusterFS数据格式的数据流并采用FUSE(Filesystem in Userspace)方式将GlusterFS挂载到了Hadoop中,从而替代了Hadop中自身的分布式文件系统HDFS(Hadoop Distributed File System)。这样就能避开HDFS的缺陷,利用GlusterFS的优点提升Hadoop整体的云计算性能。该方案实现的优化平台采用了Infiniband与RDMA(Remote Direct Memory Access)协议结合的传输网络,该网络能保证Hadoop不会受到网络带宽和速率的限制,进一步提高了Hadoop的性能;根据系统中网络拥塞情况,采用了一个判断函数来决定是否在当前网络中采用数据压缩以节省网络的带宽,进一步提升了Hadoop的数据传输速率;针对当前GlusterFS的数据缓存算法考虑的不是很全面,采用了GAC(GlusterFS AutomaticCache Algorithm)数据缓存算法,该算法先对当前数据的顺序性进行有无判断,再对有顺序性的数据进行强弱判断,针对强顺序性的数据采用预读粒度计算公式计算当前预读粒度的大小,这样可以通过合理的预读来提升Hadoop的文件系统性能。这一系列的优化措施较大的提升了Hadoop平台中分布式文件系统的性能。本文通过在Hadoop平台上的测试,证明了本文的优化Hadoop系统在分布式文件系统方面性能提高了10倍左右,网络性能提高了3倍以上,Hadoop平台云计算性能提高了2倍以上。
其他文献
雌激素受体相关受体α(Estrogen Receptor-Related Receptor alpha, ERRα)是转录因子核受体超家族中孤儿核受体中的一员,因与雌激素受体α(ERα)在结构上具有高度的同源性而被克
常压高速气雾淬火作为一种新型淬火工艺,因其经济、高效、环保以及淬火冷却能力的可调控性等优势,引起了国内外淬火研究领域的关注。但是,目前为止,对于如何确定气雾化介质淬
上皮间质转化(epithelial-mesenchymal transitions,EMT)是指上皮类型细胞丢失上皮特性如细胞与细胞之间的相互作用等现象,同时获得了间质表型如细胞移动能力增强。EMT在胚胎的
为研究家畜采食对草地植物种子萌发的作用,本试验以本氏针茅(Stipa bungeana)、大针茅(S. Grandis)、鹅观草(Roegneria varia)、刺儿菜(Cirsium segetum)、刺疙瘩(Olgaeatangutica)5种植
该文目的是探讨职业教师提高课堂教学所才用的方法。用理论结合实际的方法进行分析,提出"提高教学目标的有效性;优化选择课堂教学模式;采用体验式教学法,重视选用适合学生学
海上风电场的开发迫切需要对海上风能资源进行准确评估,传统评估方法无法获取海上高空间覆盖密度的风场资料,而利用数值模拟技术的海上风能资源评估方法,其精度和分辨率都较
以“至情”为主旨的穿越故事不断发展,因其时空矛盾产生的特定戏剧性也随之发生变化。中国文学作品中以“至情”为主题的穿越故事的矛盾冲突不断演变,从近世一直延续到当下流行
道德内化理论是一门跨学科理论,得到国内外多领域学者的重视。道德内化理论的研究特点是打破学科界限,把多学科的研究方法结合起来融入个体道德内化的研究,本文尝试将道德内化理
木质素磺酸盐是造纸工业最主要的副产物之一,仅我国每年就有数百万吨木质素磺酸盐产生,目前只有很少的一部分得到利用,因此,积极开发木质素磺酸盐产品,不断拓宽其应用范围,既有利于
城市化过程作为人类活动影响气候变化的最突出表现,改变着地球的生物、物理化学过程,对区域气候变化造成重要影响,因此研究城市化过程及其气候效应具有重要的意义和科学价值