论文部分内容阅读
集群中的节点由于其硬件配置不同导致其性能不同,使得集群环境成为异构环境。然而,在以Hadoop为代表的MapReduce实现中并没有充分考虑到环境的异构性,致使节点的负载不能与其性能相适应且过多的Map任务需要从其他节点传输输入数据块,从而影响MapReduce在异构环境中性能。本文将集群环境的异构性纳入到数据块副本策略的设计中,从而提升MapReduce在异构环境中的性能。本文主要工作如下:1)分析了异构环境中MapReduce集群性能问题的原因。2)提出基于节点性能的数据块副本创建策略,使得在副本创建时,副本的分布与节点性能相适应。3)提出基于节点性能的数据块副本动态调整策略,根据集群的历史访问信息和给定的额外存储开销预算,对存储在集群中文件的副本数进行调整,并在调整过程中平衡异构节点间的负载。4)实验验证了本文所提出的策略在异构环境中能有效提升输入数据在本地的Map任务比例,缩短MapReduce任务的完成时间,并动态平衡节点间的负载。