基于MapReduce的PageRank计算系统的设计与实现

来源 :东北大学 | 被引量 : 2次 | 上传用户:hawk_fox
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化时代的到来,各种信息以爆炸模式增长,导致图的规模日益增大。以互联网为例,近十几年来,随着互联网的普及和Web2.0技术的推动,网页排名计算和社交网络分析日趋成为图处理的热点问题,由网页和社交网络构成的大规模图,动辄有数十亿的顶点和上万亿的边。以PageRank为例,按邻接表形式存储100亿个图顶点,每个顶点的存储开销为100字节,那么这个图的存储开销将达到900GB左右。即便是传统的图处理应用,如最优运输路线的确定,也随着GPRS技术的发展和网络的日趋复杂而导致数据规模以几何倍数增长。如此大规模的数据量,给图的有效处理带来了挑战,也提供了机遇。快速有效地处理大规模图,已经成为经济社会发展的迫切需求。针对以上的背景情况,本文以Hadoop下的MapReduce作为编程框架,以PageRank为例,构建了一个基于MapReduce的PageRank计算系统,论文的主要工作如下:(1)采用开源工具Heritrix爬取了节点URL以及URL与URL的关系,并以特定的数据格式进行存储。(2)针对使用MapReduce计算PageRank过程中出现的数据传输量太大影响计算效率的问题,本文在数据预处理部分设计了图邻接表的生成算法,使用图邻接表来表示图节点的信息,针对实现中存在的问题,提出了算法改进。(3)本文采用了三种方案计算PageRank,分别是朴素的PageRank算法(Native-PR),一次迭代启动一次Job的PageRank算法(OIOJ-PR)、以及基于子图划分的PageRank算法(SGPB-PR)。其中朴素的PageRank算法迭代计算一次PageRank值需要启动两个Job,执行效率并不高,但相对于直接使用URL还是存在着很大的优势。一次迭代启动一次Job计算PageRank算法是针对朴素PageRank算法的改进,在MapReduce过程中保持着图节点的外链信息,减少了作业的启动开销,并在本地节点做了数据归约,即使用Combiner。基于子图划分的PageRank算法对图顶点进行了范围划分,每个Map函数处理一个子图,提高了计算效率。(4)网页关系图展示方面,本文利用开源工具prefuse对PageRank的计算结果做了展示。由于prefuse本身没有提供HDFS的接口,本文设计了数据装载(数据从HDFS到数据库)过程。
其他文献
近日,中国农业科学院蜜蜂研究所蜂种质资源与育种团队再次挖掘出2种可以人工饲养的熊蜂,探明了我国南方蜂种弗里熊蜂(Bombus friseanus)和短头熊蜂(B.breviceps)的生物学特性
本文介绍了智能变电站自动监控系统应用背景和国内外图像识别技术、目标区域跟踪等技术研究水平的现状和国内外发展趋势;提出了学习算法的实现过程;并对变电站内鸟巢智能识别相关软件进行了分析。
随着世界各国新兴产业的蓬勃兴起与快速发展,全球新兴产业技术标准竞争也愈演愈烈,“标准先行”成为新兴产业创新的重要战略模式,在激烈的竞争中抢占技术标准的制高点,就意味着在
计算机网络数据的安全管理技术有效应用,直接影响着整个计算机网络的安全性与稳定性,因此相关管理部门必须制定健全的管理制度,并引进多元化安全管理技术,提高计算机网络数据
本文试图通过介绍当前机房设备的几种主流通讯方式,针对现有机房设备通信方式的优缺点进行简单分析。并结合机房的实际情况,采用各种网络结构方案组合,综合发挥各种网络结构
本文主要研究了有限元软件的基本;理论和方法以及采用ansys软件进行结构分析的主要步骤。并采用ansys软件对AUV壳体中段进行强度和稳定性的分析。仿真结果表明,本文设计的壳
本文以现代智慧医院重要标志之一的轨道物流系统为研究对象,设计了基于射频识别(RFID)、条码定位等物联网关键技术的智能化医院轨道物流系统。该系统可实现对医院相关医疗器材进行定点、快速、安全的输送,并可利用远程通信的方式对医用物流轨道系统进行实时监测与控制。
1 2006年世界规划师大会;2 国际建造业展览会;3 国际工艺与艺术展;4 2006波兰国际建筑材料展览会;5 第11届捷克布鲁诺国际建筑材料展;6 2006年奥兰多国际建筑博览会。