基于MapReduce的大数据增量处理研究

来源 :东北大学 | 被引量 : 2次 | 上传用户：zhaoyuanhappy2008

【摘要】

：

随着数据获取方式的多样性,数据挖掘和机器学习使用的数据集规模越来越大。而随着时间的推移,在大规模数据集的基础上,新的数据也在不停的加入进来,同时,数据集中已有的记录

【作者】

：

王强

【机构】

：

东北大学

【出处】

：

东北大学

【发表日期】

：

2014年01期

【关键词】

：

MapReduce MRBGraph 迭代计算增量计算增量迭代计算

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着数据获取方式的多样性,数据挖掘和机器学习使用的数据集规模越来越大。而随着时间的推移,在大规模数据集的基础上,新的数据也在不停的加入进来,同时,数据集中已有的记录也会被修改或者删除,即数据集发生增量变,由此导致上一次挖掘出的结果过时。数据集一般发生增量变化时,我们需要对整个数据集重新进行挖掘,得到实时结果,由此浪费大量的计算资源。为了提高效率,使用增量处理技术解决数据发生增量变化是一个有效的方法。增量处理技术是使用上一次计算保存的状态,只重新处理发生增量变化的数据。MapReduce是现流行的并行处理大数据的框架,由于其简单易用成为主流处理大数据的工具。但是MapReduce不支持增量处理数据,需要重新处理整个数据才能得到实时结果。在本论文,我们提出增量处理技术,并在MapReduce上扩展,实现incr-MapReduce计算模型。本文主要贡献如下：(1)本文提出了在key-value层面上做增量计算的方法,并设计了一种新的文件模型MRBGraph,保存细粒度的计算状态。Incr-MapReduce根据增量数据从MRBGraph文件中匹配记录,做增量计算并更新MRBGraph文件。(2)提出增量处理技术,incr-MapReduce计算模型上不但支持批处理算法做增量计算,而且支持迭代算法做增量计算。incr-MapReduce做迭代算法的增量计算时,从上一次计算的收敛结果开始做增量迭代计算,同时使用变化传播控制技术,能有效控制下一次迭代参与增量计算的记录的范围。(3)由于incr-MapReduce在做增量计算时,MRBStore需要频繁从MRBGraph文件中读取数据和更新MRGraph文件。本文使用了索引和缓冲优化技术,减少操作MRBGraph文件的I/O次数。本文使用真实数据集,在incr-MapReduce、MapReduce、Haloop和iMapReduce四个框架上执行PageRank, GIMV、KMeans和Apriori算法,展示incr-MapReduce的性能。同时通过实验验证incr-MapReduce的优化成果。

其他文献

面向计算环境部署的虚拟共享存储架构研究

动态提供计算和服务环境以满足开放环境下多变的应用服务需求，是现代计算技术的一个热点问题。传统的计算环境由存储部件与计算部件静态绑定形成，许多计算环境按需部署研究都采

学位

虚拟共享存储计算环境部署缓存共享存储架构研究

行车热点中无监督聚类算法的研究与应用

聚类是数据挖掘领域中重要的技术之一,用于发现数据对象中未知的分类。聚类算法不仅可以作为发现数据库中数据分布的深层次信息的工具,还可以将其作为数据挖掘中的一个预处理

学位

行车热点数据挖掘聚类算法K-Means

Windows下三类典型驱动程序的设计与实现

设备驱动程序是实现计算机与外部设备间正常通信的重要保障。本文介绍并且简要分析了PCI总线和USB总线协议；分析了WDM驱动程序的结构、工作原理和特点，介绍了WDM驱动程序设计中

学位

驱动程序WDMPCI总线USB总线NDIS

温室环境下多变量模糊控制系统的研究

本文以智能温室为研究对象,对智能温室的控制算法进行研究。温室环境系统是一个多变量的大惯性非线性系统,且有交连,时滞等现象。很难对这类系统建立数学模型及用经典控制方

学位

人工智能模糊控制单片机非线性系统系统仿真

基于链接结构的中文网页排序算法研究

目前,互联网上存在着各种各样的资源,而且信息量仍在快速增长着。在庞大的互联网中搜索自己所需要的信息,已经成为大部分用户经常性的操作。搜索引擎的出现,使用户搜索信息的

学位

搜索引擎PageRank链接分析锚文本

连接数据知识库语义查询处理

查询处理是任何信息管理系统的重要特征和组成部分。语义Web领域的智能查询处理问题已经成为研究热点,其与已有的查询处理工作最大的不同点是：使得基本的RDF数据存储具有重要

学位

Linked Data查询处理语义Web基于遍历的连接查询处理信息发现实时查询执行链接遍历

软交换即时消息系统业务适配子系统的研究与实现

随着电信市场竞争的加剧，业务已经成为电信运营商参与市场竞争的关键元素。下一代网络以业务为驱动力，通过开放业务体系架构能够同时支持话音、数据和多媒体等多元化的业务。而

学位

下一代网络软交换即时消息Paraly业务适配

三维图形引擎中实时角色动画关键技术的研究与实现

三维图形引擎是计算机硬件和软件开发的最新技术,实时性,交互性以及强大的漫游功能是其主要特点。三维图形引擎目前在很多领域内都有很广泛的应用,如军方的模拟实战系统以及

学位

三维图形引擎实时角色动画关节动画反向运动学骨骼蒙皮动画动画混合

无线传感器网络中能量感知的选播路由算法研究

集数据采集、处理及通信于一体的无线集成传感器网络以其低廉的价格、便利的部署方式正得到越来越广泛的使用,对传感器网络各个方面的研究也成为目前学术界非常活跃的课题。

学位

传感器网络路由选播能量感知负载平衡蚁群算法

基于模式结构和已知匹配知识的模式匹配模型的研究

在大量的数据库应用中，如面向 Web 的数据集成、电子商务、数据仓库、数据库设计等，都需要用到模式信息。而操作模式信息的一个最基本的操作就是匹配，即将两个模式作为输入，产生

学位

模式匹配阈值区间神经网络匹配模型数据集成

基于MapReduce的大数据增量处理研究

其他学术论文