论文部分内容阅读
伴随着信息技术的高速发展,大规模信息网络在各个领域不断地涌现,如万维网、社交网络、即时通讯和生物信息网络等。这些由大量的相互作用的不同类型的个体组成的信息网络往往隐含着一定的模式和规律。对于这些大规模信息的研究无论是对于自然科学的探索还是对于人类社会行为的研究都具有重要的意义。自然界中广泛存在的信息网络,如生物信息网络、神经网络等已经成为科学界发现新模式和新规律的一个重要窗口。而大规模在线社交网络为社会学家研究了人类的行为方式和社会发展提供了一个难得的契机。同时在商业领域,对互联网中的大规模信息网络的挖掘在公司的商业决策和产品推广中扮演着越来越重要的角色。大规模信息网络的分析给学术领域和工业领域都带来巨大的挑战。首先,传统的数据分析方法并不能很好的应用于当前的大规模信息网络的分析。传统的数据分析算法往往复杂度过高,不能够应对数据规模巨大的信息网络。其次,基于单个高性能计算机的计算能力已经不足以容纳和分析如此大规模的网络数据,分布式计算的成为数据分析的新趋势,这对数据存储和系统设计提出了新的要求。针对上述挑战,本文主要研究在分布式计算环境下的大规模信息网络挖掘在数据划分、计算模型和分析方法上所面临的问题。在数据划分方面,本文提出了一个大规模并行图数据分割算法,能够高效地和并行地在分布式环境下进行数据的划分,有效地减少了系统的通信开销,提高了系统的计算性能。在计算模型方面,本文提出了一个多路消息传播机制,该消息传播机制能够一次迭代计算中进行多路消息传播,提高了系统的并行计算效率。在分析方法上,除了传统的基于图的分析方法外,本文还提出了一个矩阵分解的算法框架。该矩阵分解算法框架通过不同规则项的设计来融合不同信息网络之间的信息,供了大规模信息网络分析的一个通用的算法框架。最后本文基于上述的研究成果,设计了一个用于大规模信息网络挖掘的分布式计算框架,用户只需编写少量的代码便可以进行大规模信息网络的分析,而不必考虑分布式系统的具体细节。