论文部分内容阅读
数据挖掘是一种将原有的数据分析法与处理大规模数据的复杂算法相结合的技术。链接挖掘作为数据挖掘的一个分支,它的研究任务包括描述和预测模型,随着链接概念的提出,链接预测已经成为近年来的研究热点。目前,现有的链接预测方法一方面仅利用一种特征(结构或属性特征)进行链接预测,忽视了时间因素和特征的重要性;另一方面,不能针对给定的合著网络系统地抽取拓扑特征和语义特征,预测能力比较低。本文针对这些问题展开了研究。首先,为兼顾社会网络所提供的属性信息、结构信息及网络的动态特性,本文采用矩阵法对网络的各种信息进行分析,并给出社会网络及其信息的表示形式。其次,提出一个以矩阵的方式来组合时间特征、加权属性特征和加权拓扑特征的链接预测方法。该方法利用社会网络中的一种对齐关系来识别出重要的特征,并以矩阵的方式将这些特征有效地组合起来,从而提高链接预测的性能。另外,采用奇异值分解技术来减小存储空间。再次,针对合著关系网络,首先给出合著网络中链接预测问题的定义,接着为捕获网络中多方面的有效信息,从给定网络中系统地、有步骤地提取拓扑特征、语义特征以及时间特征,再利用有监督学习框架组合这三种特征,并提出一个同时使用三种特征的链接预测模型,从而进一步提高链接预测的预测性能。最后,通过实验对所提出算法的可行性和有效性进行验证,实现了预期的研究目标。