论文部分内容阅读
复杂网络作为刻画现实世界复杂系统的工具,已经广泛用于社会学、生物学等领域。但是真实的复杂系统是随着时间缓慢变化的,将不同时刻的系统进行建模,并按照时间排序即可得到动态网络。社团是网络的一个重要特征,对动态网络进行社团挖掘,可以使人们更好地了解网络的特征及其演化规律,有重要的理论价值与实际意义。然而,如果使用传统的聚类算法,会忽略相邻时刻网络间的关系;演化聚类的算法准确度高,但是受限于时间复杂度,在大规模网络中并不适用;增量聚类算法利用动态网络缓慢变化的特点,基于前一时刻发现的社团结构,避免了对网络中全部节点的重新划分,不仅有效降低了时间复杂度,还保证了相邻时刻社团检测结果的一致性。本文提出了一种基于增量聚类与连接密度的动态网络社团检测算法IPSCAN。工作主要分为两部分,首先,根据动态网络中边的增删对节点结构相似性与相似度值的影响,分析了边更新影响的区域,重新定义了增量节点的集合。然后,将增量节点集合中的节点根据相似度值分为核心节点与非核心节点,当处理某一时刻新增的核心节点时,尝试从此节点扩展并判断是否生成新社团,克服了IC等增量算法社团数目固定、不能发现新出现的社团的缺陷。通过对时间复杂度的分析发现IPSCAN算法具有增量算法高效率的特点。对本文提出的算法在合成数据集与真实数据集上进行实验,从准确性与时间复杂度两方面验证算法的性能,并与演化聚类算法Facetnet、增量聚类算法IC及DABP进行对比。例如在真实动态网络数据集Football上,IPSCAN算法得到的社团结果的模块度比Facetnet算法高5%,比IC算法高12%,比DABP算法高11%;在大规模真实数据集DBLP上的结果显示,本文算法得到的社团结果的模块度比DABP算法高11%,且显著高于IC算法,而IPSCAN算法在每个时刻的运行时间控制在6秒以内,DABP算法的运行时间最高达67秒。实验结果表明,IPSCAN算法的准确度高于IC算法,而DABP算法虽然可以发现新社团,但是准确度低于IPSCAN算法,且时间效率比IPSCAN算法低。本文提出的算法不仅具有良好的社团检测能力,可以发现新出现的社团;而且还具有增量算法高效的优点,可以用于大规模动态网络的社团发现。