MapReduce连接算法的优化与设计

来源 :重庆大学 | 被引量 : 0次 | 上传用户：carefreebeet

【摘要】

：

Map Reduce作为一个并行处理的计算模型,因为其高容错性,高易用性,以及高扩展性在大规模分布式数据处理中得到广泛的应用。Map Reduce可以处理关系数据库中一些操作,像是选择

【作者】

：

胡龙

【机构】

：

重庆大学

【出处】

：

重庆大学

【发表日期】

：

2015年期

【关键词】

：

HDFS MapReduce 连接查询优化分区优化

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Map Reduce作为一个并行处理的计算模型,因为其高容错性,高易用性,以及高扩展性在大规模分布式数据处理中得到广泛的应用。Map Reduce可以处理关系数据库中一些操作,像是选择,聚合,和投影等。但是二元操作中,像是连接,笛卡尔乘积,和集合操作,却很难在Map Reduce中实现。Map Reduce是支持的对大规模单数据集的处理。但是,对于多数据集的处理,Map Reduce去没有提供相应的支持。因此在Map Reduce框架中,连接操作一直是没有有效的实现方式。虽然在Hadoop中提供了实现Map Reduce的连接算法,但是这些实现方式连接效率都不高。因此,对于改进基于Map Reduce连接查询处理算法成为急需解决的问题。本文首先针对基于Map Reduce Reduce Side的二路连接算法的不足提出了一种基于索引的分区改进优化算法,优化算法的思想是,在进行连接之前,将两个数据表按照连接属性进行分区,再对其中一个较小的表的分区生成一个索引文件,并存储到HDFS(Hadoop Distributed File System)上。在Map阶段读入大数据集的分片信息,通过对索引文件的搜索,可以找到与当前大数据集对应的小数据集的分区文件,并把它加载到内存中,与大数据集分片在Map端进行连接。从而提高内存的利用率。其次,通过Map Reduce多表连接的传统实现算法的缺点的分析,提出了一种改进分区的策略,使key/value对能够通过改进分区传送到多个Reduce节点,从而在满足条件的节点执行连接,来减少Map Reduce Job执行的数量。而且在分区之前,采用Bit-Map对多个表进行过滤操作,来减少传输代价,并提高多表连接的效率。最后,通过大量的实验,针对本文提出的优化方法进行了验证。通过对实验结果分析,可看出本文所提出的基于Map Reduce模型的两表及多表连接优化策略能够大量的减少shuffle阶段的开销,提高了系统执行连接任务的效率,提高了系统性能。

其他文献

移动通信网集中操作维护平台的设计与实现

随着电信网规模的不断增大，网络中的电信设备在复杂性和多样性方面都有很大的提高，如何对它们进行有效、高效的管理成为了一个很重要的问题。本文设计并实现的集中操作维护平台

学位

分布式垃圾邮件防范体系与技术研究

近年来,垃圾邮件的传播形式和内容已经出现了新的变化,其危害日益严重,而现有的垃圾邮件过滤技术却不能很好地应对这种形势。为了进一步提高互联网抵御垃圾邮件风险的能力,更

学位

垃圾邮件蜜罐邮件过滤系统防范体系

P2P网络智能搜索机制的研究与实现

近年来,P2P网络发展迅速,在很多领域得到广泛应用,成为业界研究与关注的一个焦点。对等网络是实现下一代互联网的重要组成部分,P2P搜索技术是P2P研究中的一个重要领域。随着

学位

P2P网络非结构化P2P网络洪泛算法智能广度优先搜索

求解连续函数总体极值软件的研制与开发

连续函数的总体极值在自然科学、人文科学和工程设计等各种学科中都有着很广泛的应用。目前对于求解函数局部极值有很多好的成熟实用算法，而对于求解函数总体极值尚不多见，因此

学位

连续函数总体极值数学软件

分布式约束优化完备算法的通信结构研究

分布式约束优化是解决分布式推理任务的一个基本框架,是目前多Agent领域的研究热点。近几年来提出了许多优秀的分布式约束优化算法,这些算法大体上分为完备算法和非完备算法

学位

分布式约束优化完备算法通信结构结点贡献割点

语义判别投影在图像检索中的应用

随着数码设备的普及,互联网的兴起,每天将产生大量数字图像。为了有效的存储、管理图像数据库,需要对图像库进行索引,按特定的需求检索图像。怎么根据数字图像的视觉内容有效

学位

基于内容的图像检索子空间学习数据降维语义判别投影核方法张量学习相关反馈

基于框架的数据资源平台的研究和实现

随着信息技术与互联网技术的发展，大量的数据在各行各业中积累着，为了综合利用这些数据信息，达到充分的资源利用，需要针对现有的数据进行科学的研究和分析，进行大量的数据沉淀和数

学位

多级分类器构建及在不平衡数据的应用研究

分类技术是数据挖掘领域一项重要的任务。如何根据训练集建立分类器,并使用该分类器准确预测待测试实例的类别是衡量分类器好坏的标准。单级分类器通常只对训练集学习一次,在

学位

数据挖掘分类多分类器不平衡数据

结构化P2P关键词搜索模型的研究

对等网络（P2P）是一种采用分布式体系结构的网络，也是当今一个迅速发展的研究领域。现有的P2P系统网络规模大、动态性高、异构性强，有效的搜索技术一直是P2P系统研究中的核心问题，

学位

基于方向滤波器的运动估计算法的研究与实现

有效的运动估计可以减少运动补偿残差帧中的能量,能够明显提高视频的压缩性能。本文系统分析了两种不同的运动估计方案:分级运动估计和变换域运动估计。运动补偿的嵌入式零块

学位

方向滤波器小波运动估计视频编码

MapReduce连接算法的优化与设计

其他学术论文