论文部分内容阅读
随着网络信息技术的不断发展及互联网数据的爆发式增长,传统的数据平台已经无法满足现有海量数据的存储与处理,分布式计算面临新的机遇。Hadoop的诞生使得海量数据的存储和计算成为可能,它是基于分布式存储平台HDFS和计算框架MapReduce的开源分布式并行计算平台。但实际应用过程中,常常会产生不可避免的硬件故障,因此如何保证平台存储的鲁棒性和计算的健壮性成为国内外学术圈的研究热点。本文主要研究如何保证分布式计算的健壮性,即Hadoop计算容错机制的优化。 推测执行是保证计算容错机制准确性的重要手段之一,它通过发现任务执行过程中的掉队任务并为其启动一个备份任务,以达到降低任务执行时间及节省集群资源的目的。本文围绕推测执行机制的优化展开研究,目的是提高掉队任务判断的准确性,并制定备份节点选择策略,将掉队任务备份到性能更优的节点,以达到保证容错机制的健壮性的目的,主要工作包括: (1)为了提高推测执行过程中掉队任务判定的准确性,本文提出了一种基于任务进度实时感知的推测执行优化策略LWR-SE。首先,通过实时采集任务运行过程中的进度与执行时间信息,发现了两者存在局部线性关系,引入局部加权线性回归算法实时预测任务的剩余时间。其次,对备份任务的执行时间分阶段估算。最后,结合推测执行效益模型保证推测执行策略的整体效益。实验结果表明,与经典的推测执行算法相比,LWR-SE在实时任务剩余时间预测准确性、集群运行时间和吞吐量上性能更优。 (2)针对LWR-SE没有考虑到备份任务的资源调度导致节点利用率不高的问题,提出了基于非合作博弈的推测执行混合资源调度策略HRSE。将推测执行中产生的备份任务和原始任务的混合资源调度转化为多方非合作博弈模型,模型的输入为推测执行产生的备份任务和集群中未处理的原始任务,通过效益计算得出任务的可能执行节点集合,根据可能执行节点集合中效益的纳什均衡得出最终的资源分配方案。实验结果显示,与经典的推测执行算法相比,该调度方案可以有效提升节点利用率,降低任务总体执行时间。