MapReduce连接算法的优化与设计

来源 :重庆大学 | 被引量 : 0次 | 上传用户:carefreebeet
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Map Reduce作为一个并行处理的计算模型,因为其高容错性,高易用性,以及高扩展性在大规模分布式数据处理中得到广泛的应用。Map Reduce可以处理关系数据库中一些操作,像是选择,聚合,和投影等。但是二元操作中,像是连接,笛卡尔乘积,和集合操作,却很难在Map Reduce中实现。Map Reduce是支持的对大规模单数据集的处理。但是,对于多数据集的处理,Map Reduce去没有提供相应的支持。因此在Map Reduce框架中,连接操作一直是没有有效的实现方式。虽然在Hadoop中提供了实现Map Reduce的连接算法,但是这些实现方式连接效率都不高。因此,对于改进基于Map Reduce连接查询处理算法成为急需解决的问题。本文首先针对基于Map Reduce Reduce Side的二路连接算法的不足提出了一种基于索引的分区改进优化算法,优化算法的思想是,在进行连接之前,将两个数据表按照连接属性进行分区,再对其中一个较小的表的分区生成一个索引文件,并存储到HDFS(Hadoop Distributed File System)上。在Map阶段读入大数据集的分片信息,通过对索引文件的搜索,可以找到与当前大数据集对应的小数据集的分区文件,并把它加载到内存中,与大数据集分片在Map端进行连接。从而提高内存的利用率。其次,通过Map Reduce多表连接的传统实现算法的缺点的分析,提出了一种改进分区的策略,使key/value对能够通过改进分区传送到多个Reduce节点,从而在满足条件的节点执行连接,来减少Map Reduce Job执行的数量。而且在分区之前,采用Bit-Map对多个表进行过滤操作,来减少传输代价,并提高多表连接的效率。最后,通过大量的实验,针对本文提出的优化方法进行了验证。通过对实验结果分析,可看出本文所提出的基于Map Reduce模型的两表及多表连接优化策略能够大量的减少shuffle阶段的开销,提高了系统执行连接任务的效率,提高了系统性能。
其他文献
随着电信网规模的不断增大,网络中的电信设备在复杂性和多样性方面都有很大的提高,如何对它们进行有效、高效的管理成为了一个很重要的问题。本文设计并实现的集中操作维护平台
学位
近年来,垃圾邮件的传播形式和内容已经出现了新的变化,其危害日益严重,而现有的垃圾邮件过滤技术却不能很好地应对这种形势。为了进一步提高互联网抵御垃圾邮件风险的能力,更
近年来,P2P网络发展迅速,在很多领域得到广泛应用,成为业界研究与关注的一个焦点。对等网络是实现下一代互联网的重要组成部分,P2P搜索技术是P2P研究中的一个重要领域。随着
连续函数的总体极值在自然科学、人文科学和工程设计等各种学科中都有着很广泛的应用。目前对于求解函数局部极值有很多好的成熟实用算法,而对于求解函数总体极值尚不多见,因此
分布式约束优化是解决分布式推理任务的一个基本框架,是目前多Agent领域的研究热点。近几年来提出了许多优秀的分布式约束优化算法,这些算法大体上分为完备算法和非完备算法
随着数码设备的普及,互联网的兴起,每天将产生大量数字图像。为了有效的存储、管理图像数据库,需要对图像库进行索引,按特定的需求检索图像。怎么根据数字图像的视觉内容有效
随着信息技术与互联网技术的发展,大量的数据在各行各业中积累着,为了综合利用这些数据信息,达到充分的资源利用,需要针对现有的数据进行科学的研究和分析,进行大量的数据沉淀和数
学位
分类技术是数据挖掘领域一项重要的任务。如何根据训练集建立分类器,并使用该分类器准确预测待测试实例的类别是衡量分类器好坏的标准。单级分类器通常只对训练集学习一次,在
对等网络(P2P)是一种采用分布式体系结构的网络,也是当今一个迅速发展的研究领域。现有的P2P系统网络规模大、动态性高、异构性强,有效的搜索技术一直是P2P系统研究中的核心问题,
学位
有效的运动估计可以减少运动补偿残差帧中的能量,能够明显提高视频的压缩性能。本文系统分析了两种不同的运动估计方案:分级运动估计和变换域运动估计。运动补偿的嵌入式零块