论文部分内容阅读
随着网络的飞速发展,社会网络变得越来越复杂,人们开始将数据挖掘技术应用于社会网络。旨在从社会网络中寻找更深层次、更有价值的知识。寻找一种能充分利用社会网络中的各种信息的模型,对于提高社会网络数据挖掘的有效性有着重要的意义。本文的研究对象是邮件网络,它是社会网络的一种,邮件网络包含着丰富的信息:通信关系、通信方式、通信频率等等。AF模型是郭军教授提出的一种激活力测度模型,该模型在词网和蛋白质网络的研究中已经取得了优异成绩。本文将AF模型与邮件网络的特性相结合,对其一些变量进行重新定义和设定,进而衍生出了邮件网络中的SAF模型。首先,研究了社区发现问题。将SAF模型中最核心的两个测度(激活力和相似度)应用于社区发现,详细讨论了如何构建SAF模型。在掌握社区发现的重点与难点之后,总共实现了三个算法:经典GN算法,基于激活力的GN算法,基于相似度的社区发现算法。结果证明,通过激活力先删去部分边缘节点后,再运行GN算法会有比较好的效果;而相似度则先将节点构造为树,然后通过剪枝的方式来生成子社区。其次,研究了链接预测问题。利用相似度来寻找最相似的节点,然后利用激活力来寻找最亲近的节点。这两种方式相结合,就构成了本文的算法。通过准确率和召回率两个指标,证明该算法是有效的。最后,研究了社区核心人物的挖掘问题。建立“关注度”分享模型,然后从通信频率和激活力两个角度进行了研究,对结果进行了分析,证明通过激活力来挖掘核心人物是有效的。本文的研究基础是SAF模型,实验也证明了SAF模型的正确性和可行性。SAF对社会网络的数据挖掘有积极的帮助,是一种全新的研究思路和方式。但是SAF模型还需要进一步的完善,这也为今后的研究工作指明了方向。