面向MapReduce计算模型的调度技术研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户：xuelin_1985

【摘要】

：

MapReduce是目前最流行的云计算框架,其调度优化问题一直是云计算领域的重要研究问题。MapReduce调度优化的主要目标是,提高MapReduce作业的运行效率。针对这一目标,本文研究

【作者】

：

汪昌健

【出处】

：

国防科学技术大学

【发表日期】

：

2015年01期

【关键词】

：

云计算数据分配任务调度非精确应用加速串行程序的并行执行

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

MapReduce是目前最流行的云计算框架,其调度优化问题一直是云计算领域的重要研究问题。MapReduce调度优化的主要目标是,提高MapReduce作业的运行效率。针对这一目标,本文研究了面向MapReduce的数据分配、Map任务调度、非精确应用加速和串行程序的并行执行等四个问题。MapReduce原模型中,数据分配只考虑Map任务的负载均衡和数据本地化需求。然而,数据分配既会影响Map任务的运行效率,也会影响Shuffle的数据传输时间。针对Map任务运行和Shuffle数据传输的高效性问题,本文提出了一种面向MapReduce计算过程的最优数据分配方法OPTAS,以获得最短的Map+Shuffle的运行时间。其基本思路是:(1)利用作业数据分配方案(Data Placement Instance,DPI)的Map时间值的离散化特征,将所有数据分配方案划分成若干个DPI子空间,通过比较子空间最优DPI来获得最优数据分配方案,提高搜索效率;(2)基于子空间的Map时间值,确定子空间最优DPI的Shuffle时间下界,以快速构造子空间最优数据分配方案;(3)按照Map时间值的大小顺序构造子空间最优DPI,找出的最先具有作业时间极小值的子空间最优DPI就是最优数据分配方案,该方法有效减少了需构造和比较的子空间最优DPI的数量,提高最优数据分配方案的搜索速度。实验结果表明,OPTAS可以快速搜索出最优数据分配方案,优化MapReduce作业时间。MapReduce目前的任务调度主要是依据计算节点的忙闲状态,其调度方法存在两个问题:(1)任务队列的尾部任务会被分配给能力较弱的节点,引起“长尾”现象;(2)调度次数多、开销大。针对该问题,本文提出了一种基于节点性能的最优任务调度方法,能有效提高作业执行效率和降低调度开销。其基本思路是:(1)以已知计算节点的性能为基础,求解以最优调度为目标的计算方程,获得最优调度方案的理论值;(2)当该理论值出现非整数值时,将理论值对应的任务分两步进行调度,即整数值对应的任务直接调度,小数值对应的调度任务统一按节点的任务执行时间的快慢依次分配,依然得到最优分配方案;(3)为求解节点性能,设计一种基于任务运行的节点性能自评估方法,能获得任务执行次数越多,性能评估越准确的效果;(4)为减少任务的调度次数,设计一种基于任务完成事件的批次调度方法,能达到在节点性能评估不十分精确的情况下的最优任务调度和调度次数最少的目标。实验结果表明,该方法能有效解决任务调度中存在的两个问题。非精确应用具有只基于部分数据即可产生最终结果的特点,但目前MapReduce必须计算完所有数据才能给出最终结果。针对在MapReduce中提高非精确应用计算效率这一目标,本文提出了MapCheckReduce计算模型,并设计了它的运行支撑环境。其基本思路是:(1)在MapReduce计算过程中增加条件判断环节,根据Map任务的完成情况判断是否取消余下Map任务;(2)为支持Map任务运行时的条件判断,提供一种Check机制,不仅能接收并分析Map任务信息,而且能根据分析结果向任务调度器发出“停止余下Map任务运行”的指令;(3)任务调度器除了具有任务调度能力外,还具有中止所有剩余Map任务的能力;(4)提供一组MapCheckReduce编程接口,用户可以自定义Map过程的中止条件。MapCheckReduce原型已基于Hadoop MapReduce实现。实验结果验证了MapCheckReduce的可行性和有效性。现有串行程序的并行化是数据量不断增大情况下的迫切需求,传统的程序并行化过程需要应用人员与并行程序编写人员共同重新编程。针对串行程序面对所处理数据量增大的并行化执行要求,本文提出了一种基于可执行程序的并行计算框架MEX,通过在框架中建立分布式存储、任务调度和同步控制等机制,达到将原串行程序运行于多计算节点上并行执行的目的。其基本思路是:(1)数据在多个节点上分布存储;(2)原串行程序部署到多个节点并行执行,通过统一调度的方式对任务进行管理;(3)设计一种基于数据预取的数据本地化机制,支持任务高效运行,支持透明访问异地数据,保持计算资源使用中的动态平衡;(4)设计一种基于同步控制的进程监控机制,通过监测可执行程序的执行状态,对出现异常或失败的任务进行容错处理。MEX原型已经基于Hadoop MapReduce实现,实验结果验证了MEX的可行性和有效性。

其他文献

200kV直流电子式电压互感器测量故障分析与处理

根据一起±200kV EVT(直流电子式电压互感器)出现后台显示电压偏高的现象,经设备故障分析与现场检测,查证了故障发生的原因是EVT的电阻盒内部6路并联分压电阻中的最后1路电阻

期刊

电子式电压互感器电压偏高电阻盒绝缘击穿

金融调控对房地产业的影响

前言:房地产业与国民的经济条件与切身利益息息相关,因此高房价问题普遍受到人民的密切关注,一旦房地产业出现非正常发展的情况,将对我国经济带来极大的影响,对此,政府部门采

期刊

我国上市公司独立董事制度存在的缺陷与改进建议

我国2001年由证监会出台的《关于在上市公司建立独立董事制度的指导意见》标志着独立董事制度在我国的正式确立。可是在我国刚刚起步的市场经济体系中,独立董事制度并没有得

期刊

独立董事制度立法缺失改进建议

实训中心文化建设的重要性研究--以数控实训车间为例

技工院校实训中心的文化建设工作,是实训中心建设的一个重要组成部分。本文通过对实训中心文化建设的基本概念、实施途径进行描述,力图探索文化建设对实训中心的重要性表现。

期刊

实训中心技工院校数控实训文化建设

浅谈基于网络经济时代的财务会计管理

当前如何优化配置网络资源,科学应用IT技术,推动各个领域朝着数字化、智能化方向发展,成为社会各界热议问题之一。本文通过分析基于网络经济时代财务会计管理方略,以期规避财

期刊

网络经济时代财务会计管理数据资源

浅析经济新常态下中小企业财务管理问题

随着国民经济的高速发展,我国经济快速进入新常态,中小企业必将发展成为国家经济转型升级及国家调整产业结构的重要支柱。而财务管理作为企业生存及发展的核心,其管理水平的

期刊

中小企业经济新常态财务管理发展

起吊过程下模座强度影响因素研究

建立下模座起吊过程有限元分析模型,分析了起吊过程中下模座的最大变形量及最大应力,通过正交试验分析并确定了结构关键参数对起吊过程中下模座最大变形量及最大应力值的影响

期刊

下模座最大变形量最大应力正交试验轻量化设计

面向MapReduce计算模型的调度技术研究

其他学术论文