大规模集群上的连接处理与优化

来源 :华东师范大学 | 被引量 : 0次 | 上传用户：sxj007

【摘要】

：

随着现代企业和互联网应用中数据种类的迅速增多,各种各样的数据规模已经呈现出了指数级增长的趋势。在数据增长的同时,更多复杂的处理要求也在出现。在Web应用中,逐渐出现了

【作者】

：

常洞霞

【机构】

：

华东师范大学

【出处】

：

华东师范大学

【发表日期】

：

2011年期

【关键词】

：

连接查询处理查询优化 Map/Reduce 分布式计算

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着现代企业和互联网应用中数据种类的迅速增多,各种各样的数据规模已经呈现出了指数级增长的趋势。在数据增长的同时,更多复杂的处理要求也在出现。在Web应用中,逐渐出现了对大规模数据进行查询和分析的任务。对于这种数据处理要求,不管是传统的集中式还是分布式技术都不能提出有效和高效的解决方案。因为对海量的数据进行复杂的处理要求超出了传统关系型数据库的能力范围之内。相反地,大规模集群被越来越多地应用于数据密集型计算中。这主要归于集群性能上的三个特点：(1)可伸缩性：集群可以按照不同应用的具体需求增加或减少执行任务的机器节点。(2)容错性：集群中数据一般会有3个备份。当原数据所在节点出现错误的时候,系统会终止当前节点上的所有操作,到一个有备份数据的节点上继续执行之前的操作。(3)高可用性：在程序访问的集群节点出现故障的时候,不中断任务的执行,从其他节点继续当前任务,保证使集群的高可用性。基于大规模集群的这些优点,我们在上面进行了数据连接(join)操作的研究工作。连接是数据库的经典操作之一,它极好地解决了从有共同属性的多表中提取信息的问题。因此连接算法一直在各种应用中发挥着极大的作用。本文主要有以下三方面的贡献：1.本文比较了Map、Reduce和Shuffle三个阶段在执行连接算子时的代价,并对性能瓶颈进行了分析。文中在大规模集群的环境下,基于Map/Reduce编程模型,实现了直观连接操作的过程。之后通过一系列的实验测试,比较Map、Shuffle和Reduce这三个步骤的处理代价,并从中找出直观连接算法实现的性能瓶颈在于Shuffle过程中大量的数据传输。2.本文提出了一种预散列(hash)处理技术来优化直观连接算法的性能。预处理的时候,把输入数据按照连接属性的散列值重新排列,具有相同散列值的元组存放在一起。经过预处理之后的数据在Shuffle的过程中会减少数据传输的次数,从而提高连接操作的性能。3.针对星型连接,本文提出了一种预散列索引分块技术来提高星型连接的执行效率。优化算法在对数据进行预散列的过程中生成索引,然后利用索引在星型连接操作中过滤掉一些不必要的数据,减少Shuffle阶段的传输数据量和Reduce阶段的计算量。从算法的代价模型与最后的实验数据可以看出,本文所提出的两种连接优化方法都能够在大规模集群上利用Map/Reduce编程模型有效地提高连接操作的执行效率。

其他文献

面向网络舆情的哈萨克文热点词提取方法研究

近年来,随着互联网的迅速普及,整个社会进入了一个信息爆炸的大数据时代。新疆是一个有着多个民族聚居的地区,在这里多种语言被广泛使用。随着新疆地区经济和文化的迅速发展,

学位

哈萨克文网络舆情文本挖掘媒体关注度热点词

基于GIS的气象资料融合系统设计与实现

近年来,随着我国气象现代化建设事业的迅猛发展,各种先进的气象探测设备诸如自动站、气象雷达、气象卫星等相继投入使用,为气象应用和研究积累了丰富的数据资源。但由于气象

学位

地理信息系统多元信息融合气象数据数据处理

基于LOD的大规模地形可视化技术的研究

地形与人类的生产、生活息息相关，自古以来就是人类社会赖以生存的基础，早期人们运用符号将地面上的各种信息表示在平面上形成地图。但随着社会的发展，二维平面地图的表达方式已

学位

细节层次地形可视化ROAM算法地形分块动态调度地理信息系统

蜜蜂进化型遗传算法的改进和应用研究

搜索引擎在一定程度上解决了信息快速检索的问题,但采用的搜索算法不同,信息检索的效率以及精度也会不同。元搜索引擎则综合了各搜索引擎的优点,通过对各搜索引擎的调度,来获

学位

遗传算法蜜蜂进化型随机种群元搜索引擎多目标优化

网格中传感数据融合和容错技术的研究

传感器网格是近年来新兴的研究领域,它是由无线传感器网络和网格集成在一起构成的分布式系统,实现了无线传感器网络和网格优势互补。无线传感器网络可以利用网格强大的计算能

学位

传感器网格数据融合容错机制移动代理NS2

无结构P2P网络中资源搜索算法与负载均衡问题的研究

如何快捷高效地搜索到P2P网络中的资源已成为实现网络系统的最为关键的问题之一，同时这也是用户最为关心的问题之一。在无结构P2P网络的所有资源搜索算法中，洪泛法是一种最简单

学位

P2P网络拓扑结构负载均衡资源搜索索引缓存

基于半监督学习的维吾尔语情感分析研究

随着互联网技术的不断普及，使得我们的生活与之息息相关。在微博等实时性交流工具的广泛应用下，互联网上的自由言论呈爆炸性的增长。如果这些言论中的负面信息大范围传播，将会对

学位

维吾尔语半监督学习情感分析学习策略平衡语料

利用深度图像中的遮挡和轮廓信息确定下一最佳观测方位

计算机视觉的快速发展,以及深度图像采集设备Kinect的普及,促使深度图像的处理变成计算机视觉领域研究的一个热点。基于深度图像的视觉目标下一最佳观测方位的确定亦成为三维

学位

深度图像遮挡和轮廓未知区域类三角剖分K-means下一最佳观测方位

基于单邻域的子图查询算法研究

众所周知,子图查询问题为NP完全问题,为了改善查询性能,许多子图查询方法被提出。大多数现有的工作都采用过滤和验证框架。具体来说,在离线阶段建立索引,运行阶段,根据这些索

学位

子图查询子图同构初始顶点单邻域查询无候选匹配顶点重叠候选区域

虚拟OFDM射频信号分析仪的设计与实现

在完成了有线电视数字化整体转换后,在实际的维护过程中,由于数字信号是离散信号,衡量其质量的标准只能用终端信号的取值(或状态)判断的正确与否来评价,线路故障排查不方便。

学位

OFDMSNMP数字电视射频测量虚拟仪器

大规模集群上的连接处理与优化

其他学术论文