基于性能预估的Hadoop参数调优与作业调度机制研究

来源 :山东大学 | 被引量 : 0次 | 上传用户：zyllovezk1314

【摘要】

：

【作者】

：

王心鹤

【出处】

：

山东大学

【发表日期】

：

2020年12期

【关键词】

：

Hadoop 作业执行时间预测参数调优作业调度

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Hadoop是一个分布式系统架构,被广泛应用于大数据的并行处理。MapReduce是Hadoop的一个编程模型,它的性能受到配置参数的显著影响。然而,巨大的参数空间和参数间的相互作用使得不可能手动探索所有参数组合;同时,真实运行一次作业会产生非常大的开销,所以我们必须建立模型来对作业性能进行预测,而不是用实际性能来评估每一套参数。作业性能通常用作业执行时间来表示。目前,针对于作业执行时间的建模,研究方法大致分为两类:第一类是通过公式推导,根据对于MapReduce执行过程的高度掌握,将作业执行各阶段与参数配置的关系用公式表示,经过一步步公式推导,得出最终完成时间,然而这种方式的弊端在于,影响作业性能的参数有很多,公式覆盖能力及其有限,这会忽视其他重要参数,使得优化效果欠佳,同时这也需要建模者对MapReduce有充分的掌握程度,能力要求较高;第二类方法是将对作业性能有重要影响的参数一起作为预测模型的输入,通过训练数据集得到作业执行时间与参数配置的对应模型,但就目前研究来看,现有模型大多考虑了参数,而没有考虑到资源,然而资源对作业性能也有很重要的影响,资源不足时会导致执行速度变慢。另外,现有研究只针对单作业进行调优,而实际中集群中往往有多个作业,为每个作业都进行一次调优是不现实的。因此,本文针对上述问题展开了更深入的研究:1.本文提出了一个基于性能预估的Hadoop参数调优与作业调度框架,为给定集群中的MapReduce作业调整参数配置和调度次序,使得作业性能最优。该框架整体分为三个部分:试运行模块,参数调优与作业调度方案生成模块,方案执行模块。试运行模块负责获取对该作业执行时间进行预估的基准数据,参数调优与作业调度方案生成模块分别针对单作业情况和多作业情况生成作业的参数配置和作业调度方案,方案执行模块负责对方案生成模块生成的方案进行具体实施。2.针对单个作业的性能优化,提出基于资源和作业执行上下文的Hadoop参数调优模型来对其进行最优参数调整。具体地,用随机森林预测每个map、reduce、shuffle的执行时间,然后用装箱算法得到整个作业的执行时间,并将其作为遗传算法的适应度函数。使用随机森林模型来求解每个参数对作业性能的影响权重,将其作为遗传算法的变异概率。最后通过遗传算法迭代搜索最优解,算法输出一组最优的参数配置,使得该作业运行时间最短。3.针对多个作业的性能优化,提出一种基于两段式编码的强化遗传算法来对调度序列和参数进行评估。具体地,将染色体分为调度序列段和参数配置段,这里的适应度函数也分为两部分,分别为该染色体的当前价值和调度序列的前景值。每次交叉和变异之前都分别计算每条染色体遗传前景值和变异前景值,以此计算染色体被选中的概率。算法最终输出最优调度序列和最优参数配置,使得整个作业序列的完成时间最短。最后,用实际收集到的数据对以上模型进行评估。实验结果表明,本文的模型准确度比传统方法更高,且与默认配置相比,作业性能有提升。通过以上研究,本文为Hadoop的作业序列寻找到了一组最优的参数配置,使得作业运行时间最短,这提高了集群性能,节省了时间和资源成本。

其他文献

“肠—脑干轴”中5—羟色胺在大鼠束缚—浸水应激中的作用

束缚-浸水应激(restraint water-immersion stress,RWIS)是一种同时使心理及生理方面接受刺激的应激模型,该应激可以引起大鼠恐惧、愤怒、焦虑和绝望等情绪上的变化以及胃运动加剧、胃酸分泌量增多和胃黏膜血流量减少等胃肠机能的紊乱,从而导致大鼠胃黏膜损伤,该应激模型常用于应激性胃溃疡发生机制的研究。肠-脑轴是胃肠道与中枢神经系统相互作用的双向调节轴,脑的各级中枢接受来自胃

学位

迷走神经背核肠-脑干轴5-羟色胺孤束核束缚-浸水应激

基于ANSYS的减速箱中轴有限元静力分析

本文在ANSYS软件中建立了减速箱中输出轴模型,在约束条件下对模型进行加载,同时对模型进行有限元静力分析,即位移分析和应力分析。证明齿轮减速箱可能发生的故障原因与输出轴

期刊

有限元减速箱静力分析

美的集团并购德国库卡的风险及其防范研究

在经济全球化高速发展的今天,海外并购已经成为各国企业实施国际化战略的重要手段,越来越多的企业加入到海外并购的经济活动当中,我国家电企业作为全球经济的参与者,也积极投

学位

海外并购并购风险层次分析法

商标混淆的心理学分析

商标是商标权的客体,是商标法律制度的基石,是外在可以感知的标识和消费者长时记忆中该意义的组合。商标的心理学分析方法展示了消费者的心理变化和购物时动态心理运动,明确了相关公众对于商标的选择源自于内心的心理认同。商标在市场中的意义在于降低相关公众的心理认知成本,而商标侵权则是干扰了消费者的心理认知网络,为了防止商标发生混淆,商标法须规制市场中混淆消费者的侵权行为。本文结合认知心理学和消费心理学的原理,

学位

商标心理学混淆侵权判定消费者

梨小食心虫防治要点

<正>梨小食心虫又名东方蛀果蛾、桃折心虫,属鳞翅目,小卷叶蛾科。1)为害情况。梨小食心虫在甘肃高台果园中发生较重,主要以幼虫蛀食杏、梨、苹果等果实和桃树的新梢,虫果常腐

期刊

梨小食心虫防治要点成虫羽化期

基于性能预估的Hadoop参数调优与作业调度机制研究

其他学术论文