异构信息网络中链路预测问题的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:lemayn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络,是一种描述实体间关系的模型,世界上不同实体交织组成了不同的网络。链路预测问题,旨在通过对历史时间段内形成的网络进行研究分析,来推测未来网络中的节点之间是否存在链路,在网络研究中有其重大意义。通过链路预测技术,运营社交软件的企业可以对用户进行好友推荐,生物医学研究者们可以利用其来发现未知的蛋白质作用关系,学术网络中的学者们可以找到自己相似的其他学者进行合作。传统的单一类型节点和连边的网络建模方式过于简单,容易忽略不同类型实体间本有的相关信息,于是国内外的学者们开始转向对包含了多类型节点和连边的异构信息网络的研究。本文主要研究异构信息网络中的链路预测问题。现有的方法在相关元路径集合的产生,元路径相似性度量,以及整合不同元路径相似度的方法等方面存在一些不足。在相关元路径集合的生成方面,本文设计了LLMG(Limit Length Meta-path Generating)算法,自动生成相关元路径集合,避免了传统需要凭借先验知识进行人工选取相关元路径的缺点。本文考虑到了元路径实例中不同节点对路径实例影响的不同,以及路径实例形成的时间标签,将链路熵和时间动态信息结合综合考虑并设计了HLE-T(Heterogeneous Link Entropy with Time)算法来计算节点之间的相似度,避免了传统方法没有考虑不同节点影响以及时间信息的不足。本文改进了传统的基于二分类的监督学习链路预测模型,设计了MSLP(Modified Supervised Link Prediction)算法,将训练集中节点对的标记信息不再简单标记为0/1,而是利用网络在目标元路径上的投影子网络中待预测节点对之间的二阶加权路径数大小,为训练标记阶段中的节点对分配了一个链接强弱值,从而更加合理地利用了网络中蕴含的信息。本文在DBLP网络的Aminer数据集上,按照作者节点发表论文的数量不同将网络分成4个不同的数据集,采用AUC指标,Prec@20指标,Prec@100指标对本文所提算法的结果进行了评估,并与基准算法对比。实验结果表明,在受限长度为4时的链路预测算法可以达到较好效果。同时,本文提出的HLET算法性能在所用的评测指标上相较于传统元路径相似度算法均有较大提升。MSLP算法对比传统二分类链路预测模型,在4个数据集中的AUC值上均有小幅提高,在Prec@L指标上也具有较好表现。
其他文献