论文部分内容阅读
在互联网技术全面快速发展的时代,各种新兴网络应用平台(社交网络、电子商务)日益普及,使得大量的数据被搜集整合在一起。这些海量数据往往蕴含着宝贵且重要的信息,数据带给人们的价值无法忽视,对这类网络图形数据的研究也逐渐成为人们关注的对象。随着互联网上的数据生成快速化,数据量也随指数上升。数据中出现的冗余、虚假的信息无形中增加人们获取有效信息的查询时间与查询难度。面对海量、繁杂的信息,如何快速、便捷的获取有价值的准确信息已经成为困扰用户与运营商的首要问题。基于web链接结构的个性化PageRank算法的出现,明显提高了信息检索的速度与准确度,同时该算法也成为搜索引擎和社交媒介等大型网络平台解决方案中最佳的候选方法。
本文主要从个性化PageRank算法在大型网络图中的计算效率问题与top-k PPR排序问题展开研究。主要研究内容分两大块:
(1)本文首先对个性化PageRank算法的研究背景与相关理论进行论述。在此基础上,深入研究了目前国内外个性化PageRank算法改进的方法,总结各算法针对计算效率问题改进的方案措施。从而发现在计算节点的 PPR 值之前,对大型网络图数据进行合理的减枝或分割是个性化PageRank算法中必不可少的环节。一种有效的对图数据减枝或分割的方法,可以大大减少图数据的规模,缩减计算的范围,提高算法的计算效率。因此,本文首先提出了一种高效的可达查询方法用于求解源节点的可达子图,实现对大型网络图的减枝处理,然后结合一种快速个性化PageRank估计算法,将PPR值的计算从全图转移到子图上,有效提高了算法的计算效率,降低查询时间。
(2)对于top-k PPR排序的问题,现有的top-k PPR方法在大型网络图中计算效率低且存在查询结果的精确度不可控现象。针对这些缺陷,本文提出一种基于循环试错的top-k PPR算法。该算法采用一种循环试错方法,可以直接、快速筛选出与源节点最相关的前k项节点和对应的PPR估计值。实验证明该算法与其他top-k PPR算法相比,查询的时间明显降低,且查询结果的精确度有一定的提高。
本文主要从个性化PageRank算法在大型网络图中的计算效率问题与top-k PPR排序问题展开研究。主要研究内容分两大块:
(1)本文首先对个性化PageRank算法的研究背景与相关理论进行论述。在此基础上,深入研究了目前国内外个性化PageRank算法改进的方法,总结各算法针对计算效率问题改进的方案措施。从而发现在计算节点的 PPR 值之前,对大型网络图数据进行合理的减枝或分割是个性化PageRank算法中必不可少的环节。一种有效的对图数据减枝或分割的方法,可以大大减少图数据的规模,缩减计算的范围,提高算法的计算效率。因此,本文首先提出了一种高效的可达查询方法用于求解源节点的可达子图,实现对大型网络图的减枝处理,然后结合一种快速个性化PageRank估计算法,将PPR值的计算从全图转移到子图上,有效提高了算法的计算效率,降低查询时间。
(2)对于top-k PPR排序的问题,现有的top-k PPR方法在大型网络图中计算效率低且存在查询结果的精确度不可控现象。针对这些缺陷,本文提出一种基于循环试错的top-k PPR算法。该算法采用一种循环试错方法,可以直接、快速筛选出与源节点最相关的前k项节点和对应的PPR估计值。实验证明该算法与其他top-k PPR算法相比,查询的时间明显降低,且查询结果的精确度有一定的提高。