论文部分内容阅读
近年来,网络数据研究成为数据挖掘领域热点问题之一。当前机器学习算法基于结构化的数据输入,很难直接应用到网络数据中。网络表示学习的出现为解决该难题提供了可行途径。网络表示学习通过将原始网络数据逐层抽象为自身任务所需的最终特征表示,挖掘出了网络中的深层语义信息,有效缓解了数据稀疏问题。网络表示学习在节点学习过程中融合属性信息有利于进一步挖掘网络中的语义信息,提高最终表示的质量。该类算法忽视了数据中易获得的先验信息,从而使得学到的表示缺乏区分性。本文围绕先验信息与属性网络表示学习的融合展开研究,主要内容如下:首先,针对现有ASNE算法中节点表示学习过程未利用先验信息而缺乏区分性的问题,提出一种将标签信息融入节点学习过程的改进方法。该方法利用少量的监督信息来指导节点表示的学习过程,恢复网络的潜在结构。在两个人工网络、四个真实网络进行实验,结果表明该方法在NMI与ACC上较原算法提高5%左右。其次,针对第一个实验中属性网络表示学习存在的问题,如节点降维维度的选择、属性信息与结构信息不能完美融合以及相比标签信息约束对信息更易获得的问题,提出一种预训练加优化训练的改进方法。该方法在预训练中通过新构建的有向图着重优化属性信息与结构信息的融合,同时利用更易获得的成对约束信息来优化学习过程,并利用数据增强的方式减少了计算量与时间开销,提高了准确率。其次该方法通过优化训练过程强化图邻居结构信息,以改善预训练中随机游走带来的影响。实验结果表明,该算法优于上面提出的融合标签信息算法。最后,为探究所提出算法的实际应用价值,使用Python以及Scrapy爬取知乎网的用户结构信息和用户个人信息来构建真实社交网络结构。并通过数据预处理等方法来去除噪声数据,使用本文中的算法来进行链接预测,以此达到后续用户潜在好友推荐的目的。