论文部分内容阅读
信息化时代的到来,各种数据规模飞速增长。面对规模越来越大的网络、图数据规模,如何高效的对其进行处理,成为一个新的挑战。本论文主要对图处理中的关键技术:图存储与并行计算引擎、图数据分割等方面进行研究,试图基于云计算技术提供一套更加合理高效的解决方案。本文主要工作如下:1)采用以HDFS为基础的为分布式文件系统作为存储层,以MapReduce计算模型和BSP计算模型为基础作计算层的分布式图挖掘系统。本文首先分析了多种分布式存储模型及分布式计算引擎,并在此基础上提出了这种图数据分布式存储与计算架构。2)基于云平台并行实现了两种基于BSP模型的图分割算法。图存储的核心是图分割算法。由于图数据的特殊关联性质,在分布式计算中会有大量的通信存在。为降低通信代价,同时保证负载均衡,本文讨论了图分割相关技术,并基于BSP模型实现了两种多层次的图分割算法。3)基于云平台并行实现了多种图挖掘算法。Hama是基于BSP计算模型的开源实现。BSP模型擅长处理具有多次迭代的算法,尤其是各种图挖掘算法。本文基于Hama,并行实现了四种图挖掘算法,分别是PageRank、单源最短路径(SSSP)、K-means、基于标识传播的社团发现算法(LPA)。实验表明,基于Hama平台的以上四种并行算法都有不错的性能。结合1)2)3),本论文设计并实现了一个社会网络分析系统,该系统包含图数据提取、图算法(社会网络算法)分析、结果查询与展示等功能。