一种Hadoop集群仿真系统的设计

被引量 : 6次 | 上传用户:xujiaaiwu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络和科技的快速发展,云计算正在成为21世纪信息领域最热门的话题,云计算虽然发展迅速,但仍在起步阶段,在各种云计算框架和工具中,Hadoop以其开源性高拓展性高可靠性以及高效的性能使其广受欢迎,并大大的推动了云计算和相关领域的进步越来越多的企业已经开始基于Hadoop构建自己的云计算系统,并出现了大量的第三方云计算系统,而对于大多数中小企业以及个人开发者而言,不可能有自己的云计算系统,他们往往将自己的程序运行在第三方系统上,并且根据程序运行时间来付费,而在提交程序之前,往往需要进行程序性能的评估从而计算应付的费用即使对于有自己集群的企业和机构而言,在正式产品上线之前,也需要对产品进行反复测试,以考量自己程序的运行时间,而这些都是不可能在真实集群上来进行的,因此也需要一个测试的系统,来评估程序在Hadoop集群上的运行时间虽然这几年也出现了一些云计算仿真工具,但是却缺乏Hadoop的仿真工具,在少有的几款Hadoop仿真工具中,由于较高的抽象以及缺乏配置的灵活性,也使得它们缺乏精确度和适应性本文首先介绍了云计算相关背景,并深入学习了Hadoop架构,特别是对Hadoop的数据流和工作流进行了深入研究,然后设计并实现了一个Hadoop的仿真系统,该系统抽象了Hadoop必要的参数和组件,通过提取作业的基本信息和集群配置情况,包括Map阶段和Reduce阶段算法消耗的CPU指令和程序输入数据的大小,以及CPU的运行速度和硬盘IO平均速度,就可以算出程序在Map阶段和Reduce阶段执行算法的时间开销,然后模拟Hadoop集群的工作流程(包括sort spill merge shuffle等操作)对元数据和作业信息进行处理,最后评估作业的运行时间等基本性能,经过最后的测试,也验证了仿真系统具有较高的可靠性和准确度,另外仿真系统里集群的各种参数可以由用户自己配置,使得用户可以在各种不同配置的集群下评估自己程序的运行时间,从而找出符合自己程序的最优配置,可以大大提高开发的效率,并有效的节省能源和开发成本
其他文献
本文利用LCR电桥测量仪和无损检测方法测定了不同成熟度(青、微红和红)西红柿的介电常数、等效阻抗、介质损耗因数等电特性.试验结果表明:在加载频率一定时,随着成熟度的提高
目的:了解自1999年1月至2011年12月于昆明医科大学第一附属医院皮肤性病科门诊就诊者的HIV和梅毒流行特点及流行趋势,探讨影响HIV和梅毒感染的相关危险因素,为今后制定HIV/梅
国有企业对外投资是指通过直接或间接投出资产、资金而取得被投资单位的股权形成的投资。国有企业的对外投资及主办多种经营单位热潮始于20世纪80年代后期及90年代,对外投资
生涯适应力是个体因应生涯角色变化并与之保持平衡的能力,被视为个体在快速变化的现代社会中获得生涯成功的关键能力,是国外近年来生涯心理学领域的一个新理论生长点。在综合
商业智能(简称BI,即Business Intelligence)是上个世纪90年代末期首先在国外企业和公司界出现的一个商业管理术语,其代表为提高企业运营性能而采用的一系列方法、技术和软件。它
随着市场经济的快速发展,国际化竞争的加剧,现代企业对各项管理水平的要求也越来越高,加速企业信息化建设,提高日常管理工作效率迫在眉睫。目前很多企业陆续实施了ERP系统,但如何
<正>一、教材依据:《文艺复兴巨匠的人文风采》一课是岳麓版必修三《文化发展历史》中第三单元《从人文主义之源到科学理性时代》的第二课。二、教材分析1、教材分析本课是第
在2008年北京奥运会之后,中国体育总局提出了要从体育大国向体育强国转化,作为在中国具有广泛群众基础的“三大球”项目之一的篮球运动,成为体育强国建设的重中之重。有鉴于进入
儿童记忆受暗示性影响的研究是一个80年代后兴起的研究领域。最初研究关注的是法庭案例中目击者证词的可靠性,事实上在实验研究中消除暗示性自变量影响的作用也很重要。该文回
[中文摘要]目的了解昆明市HIV感染者/AIDS病人生存质量和社会支持现状,分析昆明市HIV感染者/AIDS病人生存质量和社会支持的影响因素,以及分析昆明市HIV感染者/AIDS病人生存质