论文部分内容阅读
现实生活中大量的复杂系统都可以建模为网络形式进行分析。然而,随着大规模社会网络的出现,传统基于网络拓扑的表示方法面临着计算效率低下、难以有效融合异构信息等问题。为此,研究人员开始研究网络表示学习方法(Network Representation Learning,NRL),旨在利用机器学习方法为网络中每个节点学习一个低维稠密向量表示,同时该向量能够充分保留节点原始网络结构信息和其他异构信息。进而可将其作为特征向量,有效应用于后续网络分析任务,如节点分类、链路预测等。本文旨在研究不同场景下融合异构信息的网络表示学习方法,从而提高网络表示学习相关任务性能。这些异构信息包括节点文本内容信息、节点多维分类信息和连边符号语义信息。近年来,针对上述三类异构信息的融合表示学习方法虽取得一定进展,但仍然存在以下不足:(1)融合节点文本内容信息的网络表示学习方法仅关注文本内容信息对网络结构信息的约束作用,忽略了网络结构信息对文本内容信息的反向约束作用,对复杂多主题的节点文本内容信息的核心语义挖掘不足。(2)融合节点多维分类信息的网络表示学习方法仅考虑将多维分类信息作为先验特征,辅助节点网络结构信息的表示学习,缺乏数据缺失情况下的应对机制,在信息不完备情况下鲁棒性较低。(3)融合连边符号语义信息的网络表示学习方法仅建模有限类型的上下文链接、或者建模不同上下文链接的聚合语义信息,缺乏对不同上下文链接的精细化建模,处理复杂连边符号语义信息能力较弱。本文针对以上问题展开研究,具体工作如下:1.针对现有融合方法对复杂多主题的节点文本内容信息核心语义挖掘能力不足问题,本文提出一种基于参数共享的共耦表示学习模型。一方面,通过该模型建模网络结构信息对文本内容信息的约束作用,挖掘文本内容核心语义信息。另一方面,通过交叉迭代训练策略,实现两方面信息相互约束作用在表示学习过程中的动态竞争,进而获得更加贴合数据场景的网络表示。实验表明,该方法可有效建模相互约束作用,提升节点分类任务性能。2.针对现有融合方法在节点多维分类信息不完备情况下鲁棒性较低问题,本文提出一种基于随机扰动和同质性约束的表示学习模型。一方面,通过随机扰动策略进行数据集变换,提升模型对不完备信息的适应能力。另一方面,在学习融合表示向量过程中,设计基于同质性原理的属性相似性保留方法,进一步挖掘不完备信息中的有效语义信息。实验表明,该方法可有效应对信息不完备问题,提升节点分类和链路预测任务性能。3.针对现有融合方法处理复杂连边符号语义信息能力较弱问题,本文提出一种基于节点间上下文链接关系预测的表示学习模型。一方面,设计基于神经网络的二分类关系预测模型,用于建模不同类型的上下文链接,进而挖掘节点间的复杂语义关系。另一方面,设计基于随机游走的上下文链接关系采样方法,适应大规模网络场景下的训练需求。实验表明,该方法可有效挖掘节点间复杂语义关系,提升连边符号预测任务性能。