论文部分内容阅读
社会网络是一种基于个体成员之间相互作用和影响而形成的社会组织形式,其最早是从人文社会学的视角进行分析,随着计算机及互联网技术的发展,逐渐演变成为社会科学和计算机科学交叉研究的领域。社会网络广泛存在于现实世界中,例如人际关系网络、科研引文网络、流行病传播网络以及互联网等。因此,挖掘社会网络中潜在的规律和特性是具有实际意义的。社会网络最显著的特征是其存在群聚结构,通常称为簇或社区,而发现这种群聚结构最常用的方法则是聚类。聚类是数据挖掘中的主要方法之一,其目的在于通过自动化方法发现大量数据中存在的聚集特性,以提取其中蕴含的潜在规律。聚类形成的结果称为簇,簇中对象具有相似属性,簇间对象具有不同属性。聚类有很长的历史,并且应用在诸多领域,例如医药、主题检测与追踪、图像分割、社会网络分析等。聚类方法很多,根据算法的基本思想,可以分为基于约束的聚类、层次聚类、基于机器学习的聚类、分割聚类、高维数据聚类等。大部分的聚类算法将对象划分到一个簇中,即簇之间是不相交的。然而,在真实世界中,单个个体可以属于多个群体,例如一个人既是家庭中的一员,又是所在单位的一员,还可以跟自己的老同学形成一个圈子。反映到聚类问题上,即不同簇之间会有交叉重叠的部分,节点可以同时属于多个簇。以往的研究要求簇之间没有重叠,节点只能属于一个簇,因此该问题得到很多研究者的关注。本文对相关重叠聚类算法进行了介绍。当前的重叠聚类算法,有着诸多缺点,例如计算复杂度高、挖掘到的重叠区域过大、不能动态处理数据集的变化,等等。随着互联网技术的发展,特别是Web2.0时代的到来,网民与网络有了更多的交互行为,一些应用如RSS、博客、新闻网站、微博、SNS等,其中的信息瞬息万变,目前的重叠聚类算法不能很好地处理这种动态的变化。基于此,本文在星形子图重叠聚类算法的基础上做了改进,同时考虑了结点之间的连接密集性以及连接强度,扩展了簇的规模,减少了重叠区域。在基于LFR基准网络数据集的实验中,本文采用了聚类数量、重叠结点准确率召回率与F1值、规范化互信息值(NMI)这几个评价标准,并且对比了动态更新簇时所用的时间。实验结果表明,新的算法能够形成较高质量的簇,在发现重叠结点时具有较高的准确率与F1值,在处理稀疏网络时具有较高的NMI值,且在动态处理簇中结点的添加与删除时具有较低的时间消耗。综合而言,新的算法更适用于真实世界中复杂网络的重叠聚类与动态分析。