基于MapReduce的大数据增量处理研究

来源 :东北大学 | 被引量 : 2次 | 上传用户:zhaoyuanhappy2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据获取方式的多样性,数据挖掘和机器学习使用的数据集规模越来越大。而随着时间的推移,在大规模数据集的基础上,新的数据也在不停的加入进来,同时,数据集中已有的记录也会被修改或者删除,即数据集发生增量变,由此导致上一次挖掘出的结果过时。数据集一般发生增量变化时,我们需要对整个数据集重新进行挖掘,得到实时结果,由此浪费大量的计算资源。为了提高效率,使用增量处理技术解决数据发生增量变化是一个有效的方法。增量处理技术是使用上一次计算保存的状态,只重新处理发生增量变化的数据。MapReduce是现流行的并行处理大数据的框架,由于其简单易用成为主流处理大数据的工具。但是MapReduce不支持增量处理数据,需要重新处理整个数据才能得到实时结果。在本论文,我们提出增量处理技术,并在MapReduce上扩展,实现incr-MapReduce计算模型。本文主要贡献如下:(1)本文提出了在key-value层面上做增量计算的方法,并设计了一种新的文件模型MRBGraph,保存细粒度的计算状态。Incr-MapReduce根据增量数据从MRBGraph文件中匹配记录,做增量计算并更新MRBGraph文件。(2)提出增量处理技术,incr-MapReduce计算模型上不但支持批处理算法做增量计算,而且支持迭代算法做增量计算。incr-MapReduce做迭代算法的增量计算时,从上一次计算的收敛结果开始做增量迭代计算,同时使用变化传播控制技术,能有效控制下一次迭代参与增量计算的记录的范围。(3)由于incr-MapReduce在做增量计算时,MRBStore需要频繁从MRBGraph文件中读取数据和更新MRGraph文件。本文使用了索引和缓冲优化技术,减少操作MRBGraph文件的I/O次数。本文使用真实数据集,在incr-MapReduce、MapReduce、Haloop和iMapReduce四个框架上执行PageRank, GIMV、KMeans和Apriori算法,展示incr-MapReduce的性能。同时通过实验验证incr-MapReduce的优化成果。
其他文献
动态提供计算和服务环境以满足开放环境下多变的应用服务需求,是现代计算技术的一个热点问题。传统的计算环境由存储部件与计算部件静态绑定形成,许多计算环境按需部署研究都采
聚类是数据挖掘领域中重要的技术之一,用于发现数据对象中未知的分类。聚类算法不仅可以作为发现数据库中数据分布的深层次信息的工具,还可以将其作为数据挖掘中的一个预处理
设备驱动程序是实现计算机与外部设备间正常通信的重要保障。本文介绍并且简要分析了PCI总线和USB总线协议;分析了WDM驱动程序的结构、工作原理和特点,介绍了WDM驱动程序设计中
本文以智能温室为研究对象,对智能温室的控制算法进行研究。温室环境系统是一个多变量的大惯性非线性系统,且有交连,时滞等现象。很难对这类系统建立数学模型及用经典控制方
目前,互联网上存在着各种各样的资源,而且信息量仍在快速增长着。在庞大的互联网中搜索自己所需要的信息,已经成为大部分用户经常性的操作。搜索引擎的出现,使用户搜索信息的
查询处理是任何信息管理系统的重要特征和组成部分。语义Web领域的智能查询处理问题已经成为研究热点,其与已有的查询处理工作最大的不同点是:使得基本的RDF数据存储具有重要
随着电信市场竞争的加剧,业务已经成为电信运营商参与市场竞争的关键元素。下一代网络以业务为驱动力,通过开放业务体系架构能够同时支持话音、数据和多媒体等多元化的业务。而
三维图形引擎是计算机硬件和软件开发的最新技术,实时性,交互性以及强大的漫游功能是其主要特点。三维图形引擎目前在很多领域内都有很广泛的应用,如军方的模拟实战系统以及
集数据采集、处理及通信于一体的无线集成传感器网络以其低廉的价格、便利的部署方式正得到越来越广泛的使用,对传感器网络各个方面的研究也成为目前学术界非常活跃的课题。
在大量的数据库应用中,如面向 Web 的数据集成、电子商务、数据仓库、数据库设计等,都需要用到模式信息。而操作模式信息的一个最基本的操作就是匹配,即将两个模式作为输入,产生