论文部分内容阅读
现实世界中的许多系统都可以用关联网络表示,如WWW、引文网络、股票关联网络、蛋白质关联网络、神经网络等等。尽管这些网络有着不同的描述对象,它们却有许多共同点。社区结构是关联网络的普遍性质之一。社区是网络的缩影,是理解网络结构和分析网络性质的基础。从不断变化的网络结构中,有效地发现社区结构及其变化过程,有助于分析网络结构性质,了解整个网络的动态,预测网络变化,从而为实现网络结构优化、资源搜索、资源推荐等提供方法。近年来,社区结构以及进化过程的发现开始成为关联网络领域的研究热点之一,并被应用在各种现实关联网络的分析中。
然而,现有社区发现方法往往只是提取并列关系的社区结构,这些社区或相互独立,或部分重叠,并没有考虑社区之间可能存在的层次关系。此外,在社区的进化过程中,社区层次会不断发生改变,单一层次的社区发现难以确保得到合理的社区结构,从而可能无法准确发现社区的进化过程。不仅如此,现有的社区进化类型判断标准很难满足社区变化的复杂性。针对这些不足,本文提出了一种改进的关联网络发现方法:引入社区层次结构,在社区结构层次结构的基础上,寻找社区的进化过程。利用该方法,对DBLP文献标题的单词关联网络进行社区发现分析。
本文研究的主要工作包括这样几个方面:
第一,分析了传统社区提取方法和现有社区进化发现方法,针对其不足,提出了一个关联网络的社区发现框架,阐述了社区发现的基本流程,引入带时间属性的关联网络、关联网络片段、社区层次结构、社区进化图等概念,并进行形式化描述。
第二,讨论了社区发现方法。包括:①对社区层次结构的构建进行研究:分别从社区的拓扑结构和社区的内容性质出发,讨论基于社区凝聚度的社区层次结构和基于关联本体的社区层次结构,并给出了构造社区层次结构的算法描述。②提出了一种利用各个时间片段的社区层次结构寻找社区进化过程的方法:定义了社区进化的基本类型以及社区进化的度量标准,给出了利用社区相关度构建社区进化图的算法描述。
第三,将上述方法应用到2000~2007年DBLP文献标题的单词关联网络,发现该网络的社区结构及其进化过程,分析各社区成员和变化的特点,通过比较现有方法,以验证其可行及有效性。实验结果表明,通过构建关联网络各个时间段的社区层次结构,寻找社区的相关状态,和现有方法相比,在一定的程度上,能够更有效地发现关联网络中的不同凝聚度的社区结构及其进化过程。