基于代价的MapReduce工作流优化

来源 :北京交通大学 | 被引量 : 2次 | 上传用户:cjjelly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,大规模数据分析逐渐成为现代企业成功的关键。与此同时,随着云计算的出现,其高灵活性,资源按需使用以及随用随付费的模式吸引越来越多的企业将数据分析任务放到云上进行。在云计算时代,MapReduce是一种被广泛认可的重要的大规模数据分析工具。它提供了一个简单并且具有高容错性的框架,使用户能够在不同的机器上并行处理数据密集型任务。本文介绍了MapReduce及其不同的实现,分析了MapReduce的内部工作流程,性能指标以及影响其性能的因素,详细介绍了一种基于I/O成本的性能模型。本文还介绍了MapReduce工作流的概念以及为什么需要MapReduce工作流。列举了常见的MapReduce工作流引擎,并对其行了对比。本文对开源工作流引擎Crunch的设计思路、框架结构、工作原理以及存在的问题进行了阐述并对其不足提出了一种基于I/O成本模型的优化算法。为了验证本文所提出的优化算法的有效性及其优化效果,实现了一个协同过滤推荐算法,并利用不同的数据集分别在标准的Crunch系统和加入本文所提出的优化算法后的Crunch系统上进行实验。实验结果表明:加入优化算法后的Crunch系统比标准的Crunch系统具有更高的执行效率。
其他文献
公司或组织为了在遗留系统的基础之上,进行业务需求变更带来的持续迭代和改进,或者实现向新系统的迁移,并降低这一过程可能引起的不可预期的副作用,比如业务丢失等,需要仔细
近年来,信息技术高速发展,海量的文字、图片、音频、视频等数据随之产生,大数据的研究亦随之引起广大学者重视,其中分布式数据库的研究就是热点之一。在分布式数据库中查询是最频
网络摄像头应用的不断拓展,使其不仅在娱乐领域,在更多的专业领域都有着独特的应用,这样的背景下开发网络摄像头应用软件的需求也不断增多。如何快速开发出质量好、功能完善
随着全业务运营的到来,各运营商对市场和客户的争夺越来越激烈,而为企业贡献较高价值的中高价值客户,由于其对企业服务能力与业务特征相对最了解,也成为了各大运营商抢挖的对象。
版本控制软件是软件开发和管理过程中必备的工具,近几年托管型的版本控制软件服务越来越流行。版本控制软件一般分为三个模块:服务器,软件开发工具配套的插件,以及配置管理工
本文针对一种新型的字符二维条码图像进行识别研究。与传统图形二维条码的符号结构不同,字符二维条码由英文字母组成,故在识别过程上也有很大的区别。本文主要针对课题组研究
多投影技术在许多领域得到了广泛的应用,但多投影系统的构建以及维护过程复杂。投影仪位置的临时变动需要打断连续的展示过程对系统进行二次校正,展览过程中灯光以及环境光的
k-匿名隐私保护模型已经成为数据发布者可信的隐私保护模型。然而,受隐私保护要求的制约,即使最优的k-匿名算法,产生的数据也将十分不精确,正因为这种不精确导致了数据可用性
VoIP的日益普及使得其安全问题变得重要起来,对此国内外学者提出若干安全机制,例如S/MIME、SRTP、MIKEY、ZRTP等。这些安全机制为VoIP数据流的传输提供了一个安全通道,实现了
随着互联网在全球的快速发展,网上的信息每天都在呈指针数级的增长,用户可以在网上获得越来越丰富的信息资源。但是,随着信息类型日渐多样化,如何快速、准确找到自己感兴趣的信息