MapReduce作业的Data-Aware调度策略研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户：richardwang_wjw

【摘要】

：

随着计算机技术的发展与信息化的普及，各行各业每天产生海量的数据，而且数据量正以爆炸式的速度增长，据IDC报告统计，全世界一年内新产生的数据量超过270000PB（2010年）近年来，大规模

【作者】

：

付庆午

【出处】

：

吉林大学

【发表日期】

：

2012年期

【关键词】

：

MapReduce作业调度 Hadoop作业调度 Data-Aware调度算法资源预测资源调度

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机技术的发展与信息化的普及，各行各业每天产生海量的数据，而且数据量正以爆炸式的速度增长，据IDC报告统计，全世界一年内新产生的数据量超过270000PB（2010年）近年来，大规模数据处理已经成为计算机产业界的焦点问题和学术界的研究热点对于这种要处理海量数据的数据密集型作业，传统的高性能计算平台已经不能胜任；处理数据密集型计算任务要求计算平台应该具有可扩展性，可用性以及容错性目前，Google公司的发布的MapReduce分布式处理模型和GFS分布式文件系统是处理数据密集型作业的利器作为MapReduce模型和GFS的开源实现，Hadoop不仅在工业界得到广泛的应用并且引起了学术界的关注Hadoop机群不仅具有良好的横向可扩展性，而且机群中的计算节点可以使用普通的机器，这样大大降低了搭建Hadoop机群的硬件成本同时，Hadoop拥有良好的容错性和可用性Hadoop平台的出现，不但使更多人能够很容易的搭建大规模数据处理平台来分析数据，同时也推动大规模数据处理平台技术的发展调度器对于整个平台的计算资源的分配和作业执行起着决定性作用为研究MapReduce作业的调度算法和调度器，我们选择Hadoop作为实现平台目前，Hadoop常用的调度器主要有默认的FIFO调度器，针对多用户的公平（Fairshare）调度器，针对多队列多用户的Capacity调度器以及针对特定场景的调度器（如针对基于作业最晚完成时刻的调度）等虽然Hadoop的调度器种类比较多，但是针对提高作业执行效率的调度器很少由于Hadoop主要用于处理数据密集型作业并且整个系统将计算资源与数据存储整合到一起，为了提高作业执行效率，目前主要的方法是尽量减少数据在系统中的传输，直接让计算任务在数据所在的节点执行伯克利大学提出的Delay策略能够很好的提高Map任务的本地化计算比例本文主要工作在之前的Hadoop平台的Data-aware调度策略之上提出一种基于资源预测的Delay调度算法，该算法能够有效的提高Hadoop作业的执行效率对于计算作业的调度，一种方式是将所需的数据传输到计算任务所在节点，另一种方式是将计算任务派到数据所在节点由于MapReduce作业主要用于处理大规模数据，如果采用第一种调度方式，大量的数据传输势必造成计算资源的浪费；同时，由于MapReduce作业的形式和数据的分布特点，为提高作业的执行效率，MapReduce作业调度尽量采用移动计算不移动数据的调度方式将计算任务派到包含要处理的数据的计算结点，可称为任务本地化计算（Task Locality）本文主要工作是基于Hadoop平台的MapReduce作业的Data-aware调度策略研究，本文调度策略结合FIFO调度算法和FairShare的Delay调度算法提出基于资源预测的Delay算法；该Delay策略通过实时的统计作业执行情况和系统的运行情况动态的预测系统可用资源情况，并以此作为对作业进行调度的依据，不仅提高本地化计算的Map任务的比例并且减少由于作业不合理的等待造成的计算资源浪费；这种基于资源预测的Delay策略比FairShare的Delay策略更加合理，该调度算法能够有效提高作业的执行效率实验表明，本文调度算法在一般场景下与Fairshare调度器相比，可将作业平均执行效率提高28.8%左右在此基础之上，本文将这种调度策略与作业最晚完成时刻结合，实现了基于作业Deadline的调度器；由用户设置作业的最晚完成时刻，该调度器不仅保证作业能在Deadline之前完成并且能够提高作业平均执行效率

其他文献

儿童急性呼吸窘迫综合征的治疗策略

一、概述儿童急性呼吸窘迫综合征（acute respiratory distresssyndrome，ARDS）是由心源性以外的各种肺内外致病因素导致的急性、进行性缺氧性呼吸衰竭。弥漫性肺泡损伤是ARDS的病

期刊

急性呼吸窘迫综合征弥漫性肺泡损伤儿童进行性缺氧性呼吸衰竭进行性低氧血症治疗病理学特征致病因素

可调有序介孔炭在有机和硫酸电解液中的电容性质

采用硬模板法,掺杂硼酸制备了一系列有序介孔炭材料,并研究了其在有机和硫酸电解液中的电容性质.结构分析表明,该类炭材料具有平行排列的有序介孔孔道,随硼酸摩尔分数从0增大

期刊

有序介孔炭有机电解液硫酸电解液超级电容器表面化学性质Ordered mesoporous carbon Organic electrolyte H2S

非小细胞肺癌患者血浆表皮生长因子受体基因突变检测及其临床意义

目的探讨表皮生长因子受体基因（EGFR）在多种肺部肿瘤中的突变情况及其临床意义.方法对2006年6月至2012年6月入住我院的60例肺部肿瘤患者的临床资料进行回顾性分析,应用EGFR基

期刊

受体表皮生长因子突变腺癌癌腺鳞状吉非替尼Receptor epidermal growth factorMutationAdenocarcino

建构主义视野下小学体育教师素质研究

随着教育改革的不断深入与经验的积累，以及素质教育的全面推行，学校教育肩负着全面推行素质教育，切实贯彻“健康第一”指导思想的重任。学校体育教学工作是学校教育的重要组成部

学位

建构主义理论体育教学小学体育教师体育教师素质

MapReduce作业的Data-Aware调度策略研究

其他学术论文