基于Hadoop的分布式副本策略研究

被引量 : 1次 | 上传用户:voolxu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,网络中产生的数据量呈指数级增长趋势,如何对海量数据进行高效的存取已经成了计算机领域的一个研究热点。HDFS(Hadoop Distributed File System)是Hadoop的一个分布式文件系统,它可以部署运行在普通的硬件服务器上。HDFS具有高可靠性,支持海量数据的高效存取。HDFS放开了部分POSIX约束,支持以流的形式读写数据。HDFS仍是一个处在发展和完善阶段的云存储系统,现有的数据管理策略依然存在许多不足之处。HDFS现有的副本管理策略在创建副本时,创建的副本个数是固定的;创建的副本在选取存储节点Datanode时,采用的是随机选取的算法。现有的副本管理策略存在系统存储空间的浪费,集群负载不均衡,性能不高等问题。本文通过对HDFS分布式文件系统的存储原理进行分析,结合云存储领域的相关知识、理论,对HDFS现有的副本管理策略进行了改进。主要包括以下方面的内容:(1)对HDFS默认的副本放置策略进行了改进。HDFS默认的数据放置策略是随机选取Datanode节点进行副本存放。然而集群中每个Datanode节点的性能和负载是不一致的,集群中有些节点处于高负荷状态,有些节点处于低负荷状态,有一些节点是新加入的;随机的选取Datanode节点进行副本存放,集群容易产生负载不均衡。改进后的副本放置策略通过对Datanode节点的性能和负载进行分析,根据得到的权值选择最优的节点进行副本的放置。(2)对HDFS默认的副本创建策略进行了改进。改进后的策略通过对文件最近一段时间的访问热度和访问趋势进行统计分析,根据文件的访问热度值和访问趋势动态的调整副本的个数;根据系统的可靠性要求和副本的可用性计算副本的默认创建个数。改进后的策略使得集群的整体性能和数据处理效率得到了进一步的提升。(3)搭建HDFS分布式存储环境,分别对改进的副本放置策略和副本创建策略进行实验验证。实验结果表明改进后的副本管理策略充分利用了集群中各个Datanode节点的性能,提高了集群的可靠性和处理速度,更好的实现了集群的负载均衡。
其他文献
小金库的形成方式千变万化,对企业的危害极大,文章从建筑施工企业小金库形成的方式、途径及成因入手,就如何监督资金流转各个环节,探讨了杜绝账外资金循环,消除小金库的治理
目的探讨贲门癌肿瘤大小、分化程度、浸润深度与淋巴结转移的关系,以期为贲门癌的诊断和治疗提供帮助。方法对65例采用手术治疗的贲门癌患者淋巴结进行分组并行病理检查,依据转
我厂生产的液压锤后腔氮气蓄能器气室结构如附图所示。工作时活塞作往复直线运动,回程时活塞压缩氮气以储能,冲程时氮气膨胀并推动活塞对外作功。气室漏气将严重影响液压锤的工
目的:消化性溃疡的发生是由于侵袭因子(幽门螺旋杆菌感染、胃酸和胃蛋白酶作用、非甾体类抗炎药的应用、遗传因素、胃和十二指肠动力异常、应激和精神因素等)与防御因素(胃粘
<正>2011年2月7日,苏丹南部公民投票委员会宣布苏丹南部公投的最终结果,结果显示,98.83%的选民支持南部地区从苏丹分离。随后苏丹总统巴希尔宣布承认和接受这一最终结果。南
<正>2011年3月,缅甸总统吴登盛上台并开启民主化进程。奥巴马政府看到缅甸改革的契机,将缅甸作为"重返亚太"的一个重要突破口,施行"以行动对行动"为原则的对缅接触政策,两国
中职教师是中职教育的主导力量,其倦怠状况与教育的质量息息相关。中职教师职业倦怠的状态包括成就感、人格解体和身心衰竭三个方面。本研究通过对广州市6所中职学校的311名
非物质文化遗产是人类发展过程中保留下来的优秀文化,是人类智慧和经验的传递,具有历史文化、艺术审美和科学价值,不论是从尊重人类自身的角度还是从尊重知识、智慧的角度都