基于MapReduce集群的调度算法的研究与实现

来源 :贵州大学 | 被引量 : 0次 | 上传用户:wblovell
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代互联网应用引发了对海量数据进行并行化处理的需求,越来越多的计算任务需要在拥有成千上万个相互独立的计算节点的装置上完成。于是Hadoop MapReduce作为新一代的编程系统应运而生,它是一个用以处理大规模分布式数据集的编程模型,其最大优势是实现了大规模并行计算。MapReduce集群(也称Hadoop平台)是一个多用户、多作业和多任务共享相同物理资源的环境,群集的性能、资源利用率以及用户体验等方面在很大程度上由调度算法所决定。因此,研究基于Hadoop平台的调度算法具有重要的理论价值和实践意义。本文首先对云计算环境下的作业调度问题和现有的作业调度算法进行了研究,然后重点研究与分析了Hadoop平台下的作业运行机制、作业调度机制及其现有的几种作业调度算法,包括算法的思想、具体步骤及优缺点等内容。在此基础之上,本文还分别从服务质量、数据本地性和资源利用率等几个方面进一步分析了Hadoop平台下现有调度算法所存在的问题,进而提出了一种基于博弈思想的二级调度模型,第一级为作业调度,第二级为任务调度。针对作业级调度,本文将其抽象成了一个动态非合作博弈,提出了一种基于QoS竞价模型的Hadoop作业选择方法,从而实现了作业优先级的优化评估和作业的量化选择。针对任务级调度,本文将其抽象成了一个合作博弈,提出了一种基于匈牙利算法的Hadoop任务调度算法,从而实现了作业完成代价的最小化,减少了作业响应时间。此外,本文还提出了一种基于最小代价流的Hadoop任务调度算法,该算法不仅减少了作业响应时间,而且提高了数据本地性,实现了负载均衡。最后,通过程序编写和集群实验环境的搭建,对本文提出的算法进行了仿真实验,并分别从数据本地性、作业响应时间和负载均衡等三个方面对实验结果进行了比较分析,从而验证了本文算法的正确性和有效性。
其他文献
随着网络的普及和虚拟现实技术的发展,三维虚拟试衣技术已成为国内外学术界普遍关注和研究的重要课题。三维服装虚拟试衣系统(3D Garment Virtual Try-On System)主要包括三个
常用的多目标优化方法自身的不足及其在实际应用中存在的诸多困难,一直阻碍着多目标优化方法的发展。在20世纪80年代中期,进化算法开始应用于解决多目标优化问题。目前涌现了
行人异常检测是当今世界智能视觉系统研究中一个十分活跃的新领域,应用到地铁、道路、超市出入口等环境中有着明显的社会和经济效益。将远程控制与计算机视觉分析技术相结合使
由于无线传感器网络中节点的能源、计算能力和带宽都非常有限,因此设计能够有效节约能源、延长网络生命周期的协议成为其研究的重点之一。从减少网络能量消耗的角度出发,本文
互联网的迅速发展、信息网络的应用普及、信息传输媒体的数字化演变进程的推进,使得电子图书馆、在线服务和电子商务等先进的多媒体服务有了十分广阔的前景。然而,在全球一体
随着信息技术的迅速发展,大量文本信息不断涌入我们的视野,在这样一个信息化时代里,如何快速有效地在这浩瀚的信息海洋里找到需要的东西是亟待解决的问题。目前的检索效果不是很
本文首先针对P2P网络中的核心问题一资源定位算法,做了深入的分析和探讨。针对不同类型的P2P网络,本文分析,比较了三种最典型的对等网资源定位算法—集中式对等网络算法、非
公理设计—面向对象软件设计框架是设计公理应用于软件设计的主要成果,它在功能域和结构域之间自顶向下进行“之字形”分解映射。每层的分解映射过程,都要依据设计矩阵分析设计
文本聚类属于无监督的机器学习方法,是自然语言处理领域的一大研究热点,已成为文本信息进行有效地组织、摘要和导航的必要环节。谱聚类是目前研究比较多、应用十分广泛的一种
随着信息技术的迅速普及,计算机网络逐渐成为人们完成相关工作的不可或缺的手段,但也带来了许多严重的安全问题。网络安全态势感知是近年网络安全领域的一个新兴研究课题,它