论文部分内容阅读
现实世界中很多复杂系统诸如社会、生物、信息系统甚至自然道路河流都可以用复杂网络来抽象表示,以网络中的结点表示对象,以边表示对象之间的交互关系。复杂网络蕴藏的信息会随着真实系统不断演化而叠积,交互关系(链接)作为其中的一种重要信息载体,对其进行挖掘显得十分必要。作为信息挖掘的基础研究问题之一,链路预测能够根据已知的网络拓扑结构,网络节点属性等一系列特征来发掘其中的隐含信息,同时它也是对网络不完整性的一种补全手段。具体来说,链路预测就是通过衡量各种与网络密切相关的影响因素,充分利用这些因素来预测网络中丢失的链接和未来可能产生的链接。随着大数据时代的降临,已有的某些预测算法已经不能满足实际问题的需要,算法的预测准度还需要进一步提高。目前链路预测的主流研究方向是基于相似性度量的方法,此类方法有着较低的时间复杂度和较高的预测能力。基于概率模型的方法因为技术手段的革新也受到越来越多的重视,此类方法随着模型的精确构建而有着越来越高的预测精度,同时时间复杂度也逐步被降低。本文在前人工作的基础上分别对这两类预测算法进行了深入研究,并在此基础上从网络结构特性和信息论角度出发,提出了基于网络社团结构的CSBased算法和基于自信息的CNSI算法。CS-Based算法思想来源于复杂网络社团结构本身的特性:社团内部联系紧密,社团与社团之间连接相对稀疏。本文认为这一性质对链路预测有着重要的促进作用,社团内的节点相似度会因社团本身的紧密程度而得到提升,社团之间的节点相似度也会因为社团之间的紧密度而提升。如果将社团这种特性加入到链路预测中,将会很大程度上提高算法的准度。真实数据集上的实验得出,CS-Based算法预测性能优于其他经典方法。对于CNSI算法,本文通过信息论知识建立预测模型,将节点间的相似度转化为网络中某些重要特征存在的前提下节点成链的条件自信息,如果越多的特征存在,比如本文中用到的共同邻居、不同长度的路径等,自信息就越小,由此反映出节点间发生链接的可能性越大。最后通过实验同样证明了CNSI方法较好的预测能力,优于其他对比算法。