异构环境下MapReduce任务推测执行算法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:muscleprince
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息技术的不断发展,互联网已经在各行各业渗透,而且互联网的用户数目也在不断地增加,这使得互联网数据形成了爆发式地增长,对分布式计算而言也是新的机遇。MapReduce是由Google提出针对海量数据进行处理的分布式并行计算编程模型,它具有并行自动处理作业,编程简单及可靠性高等特点。Hadoop是基于MapReduce的分布式并行开源计算平台,由于其定制和使用简单的特点而被许多科研单位和企业用于海量数据的研究和处理。在Hadoop中分别应用 MapReduce 和 HDFS(Hadoop Distributed File System)来处理和存储海量数据。推测执行是计算和存储高效性和健壮性的保障。它通过执行找出异常的慢任务并将其放于另一个节点备份执行,以达到节省集群资源和降低任务执行时间的目的。推测执行策略现在主要的有基于启发式的LATE和基于自适应MapReduce的SAMR。通过对LATE策略中存在的问题进行总结和分析,LATE推测执行算法只是通过比较某任务的进度速率和所有任务的平均进度速率的大小来决定是否进行推测执行,却没有考虑资源的消耗和负载的变化,于是(Speculative Execution for Benefit of Cluster,SEBC)推测执行算法从集群收益上进行了考虑,对资源进行建模,在考虑节点处理任务类型的基础上进行推测执行。实验表明SEBC能够更加有效地降低作业执行时间及提高集群性能。对SAMR策略执行流程和存在的问题进行深入分析,提出了一种基于随机森林的推测执行算法(Speculative Execution based on Random Forest,SERF),该算法在以YARN为主的新一代Hadoop平台基础上进行建模,运用随机森林机器学习算法对整体集群进行预测,并且把Map任务分成了 nodeLocal,rackLocal,offSwitch三种类型,简单有效地对3类任务执行信息进行了统计和分析,从而对计算节点处理任务的性能有了更加精准的定位,通过实验表明不仅保证了整体集群的收益,而且SERF推测执行算法比SAMR推测执行算法更加精准。
其他文献
随着信息技术时代的来临,无线传感网络(简称WSN)作为一种新型网络技术,引起了国内外研究学者的重视。WSN与传统的网络不同,它将无线传感技术与传统网络技术结合,在现实生活的
乳酸菌胞外多糖(exopolysaccharides,EPS)是乳酸菌在抵抗外界不良环境如营养缺乏、有毒物质、噬菌体、渗透压时产生的一种次级代谢产物,以保护乳酸菌自身。乳酸菌EPS可以赋予发
P92耐热钢因具有优良的热强性已广泛应用于超超临界发电机组主蒸汽管道,市场前景广阔。激光电弧复合焊结合激光热源与电弧热源的优势,具有热输入小,焊接效率高等优点,具有很
近年来,随着生物柴油的规模化生产,产生了大量副产物——甘油。甘油的有效利用也成为影响生物柴油企业发展的主要因素。因此,如何合理利用甘油,寻求甘油利用的新途径引起了人
公民素养是一个包含道德素养、政治素养和法律素养等多层面、涉及个体的知识、情感、技能和行为等多结构的综合概念。公民社会的建构需要具有较高公民素养的共同体成员的积极
Koulele三维区位于Termit盆地Fana低凸起之上,处于Dinga坳陷及Moul坳陷两个生烃灶之间,其油源条件较为优越,有望继Dinga断阶和Agraga地堑之后成为第三个油气富集带。为了厘清
在工业领域乃至日常生活中,紧固件连接随处可见,螺栓连接是其中最常用的。螺栓结构看似简单,常常被忽视,现实生活中因为螺栓失效而导致的重大事故屡见不鲜,给整个社会带来了
在高速公路上不断高发的汽车事故中,因为突发爆胎而引起的交通事故占很大一部分,而造成爆胎的主要原因是胎内气压不足或过高以及胎内温度过高。由于汽车电子技术的迅速发展,
进入二十一世纪以来,我国的汽车工业得到了迅猛发展。2012年中国汽车产销量双超1900万辆,产销量连续4年居世界第一,汽车工业已经真正成为中国的支柱产业。随着全球化的能源紧
雷达通信融合系统能够实现雷达探测功能和无线通信功能的融合,广泛应用于车载通信、无线传感网络以及电子对抗等领域。应用于车载通信环境下的雷达通信融合系统,与正交频分复