论文部分内容阅读
作为网络数据分析领域中的一个基本研究问题,链接预测不仅对探究网络的演化规律、数据补齐等问题具有重要的科学研究意义,而且在推荐系统、电子商务、科研合作等领域发挥着重要的应用价值.自Web2.0时代以来,以微信、微博、Facebook、Twitter 等为代表的在线社交网络平台的崛起,为研究者提供了空前的机遇去深入探索人类的社会行为、网络演化、组织模式等从前难以深入研究的问题.目前在链接预测的相关研究中,从拓扑信息、非拓扑信息及信息融合方面都已经取得了一系列的重要研究工作. 然而社交网络结构的复杂性、数据的多样性、冷启动性以及动态性等对链接预测任务带来的挑战仍有待进一步深入研究. 本文将针对社交网络中的链接预测问题,围绕社交网络中不同的数据环境对链接预测问题带来的挑战,研究不同数据环境下链接预测问题的建模与求解方法. 本文的主要研究成果如下: (1)针对社交网络中节点间隐含的拓扑语义,提出了融合拓扑度量的概率矩阵分解模型. 该模型中,不仅建模了网络中节点间对称的拓扑度量,而且建模了非对称的拓扑度量,并提出了同时融合对称与非对称拓扑度量的融合概率矩阵分析模型. 实验表明,相比已有的相关链接预测方法,这种同时融合对称与非对称拓扑度量信息的概率矩阵分解模型能够明显改善链接预测的结果. (2)针对社交网络中用户所具有的丰富文本内容,提出了融合用户间主题语义的概率矩阵分解模型. 该模型中,从用户的主题角度定义了一种基于 KL 散度的用户主题相似度;并依据社交网络中信息的传播特点,定义了一种用户间的主题包含度;在概率矩阵分解框架下,分别建立了融合用户间主题相似度与主题包含度的概率矩阵分解模型. 实验表明,两种融合主题语义的模型在解决链接预测问题时相比融合之前有明显提升,同时优于已有的相关代表性链接方法. (3)针对社交网络中的冷启动链接预测问题,提出了一种基于信息映射的冷启动链接预测框架. 此框架下,首先非冷启动的网络节点被表示在一个拓扑潜在特征空间下;然后提出了一种 L?logistic 映射模型,该模型能够将冷启动节点的非拓扑特征映射到拓扑潜在特征空间;最终在统一的拓扑潜在特征空间下实现了社交网络中冷启动用户与非冷启动用户的链接预测.实验表明,L?logistic映射模型能够更好的建立起网络拓扑信息与非拓扑信息之间的联系,同时提出的冷启动链接预测方法相比已有相关方法能够获得更好的预测结果. (4)针对社交网络的演化特性,提出了一种时序概率矩阵分解模型.模型中设计了一种近依赖性的概率产生式策略,在此策略下社交网络历史时刻的网络快照能够被天然的建模在统一的概率产生式框架下;在此框架下,每个时刻的网络被表示在潜在的特征空间,且相邻时刻网络的潜在特征表示能够保持近相似性.实验表明,所提出的时序概率矩阵分解模型相比代表性的时序链接预测方法能够获得更好的预测结果. 综上所述,本文针对社交网络中不同数据环境对链接预测问题带来的挑战,提出了相应的链接预测模型与解决方法,为面向社交网络的链接预测任务提供了一些重要的研究成果,这些研究成果丰富了社交网络中链接预测的模型与方法体系,并为推荐系统、科研合作者预测等应用提供了新的技术支撑.