论文部分内容阅读
随着互联网高端技术的创新与发展,大量的社交网站和内容共享平台不断涌现。用户可以利用这些社交网站和内容共享平台建立自己的社交关系、与他人共享资源等。将这些用户、社交关系以及资源等信息以图的形式表示,即形成了社会网络。随着Web2.0技术的发展,互联网正朝着社区化的方向发展,用户希望通过参与、互动,来获得更多感兴趣的社区信息。因此,需要从社会网络中识别出在某种性质达到局部最优的稠密子图,即社区发现(Community Detection,也称社区挖掘)。社区发现是数据挖掘、机器学习等领域的研究热点,利用社区发现技术可以按照某种关系对实体进行划分,将具有紧密关联关系的实体划分为同一社区,而将差异性较大的实体划入不同社区。社区发现技术可应用到犯罪团伙检测、蛋白质功能预测、Web社区发现、文档聚类等不同领域。然而,传统的社区发现方法主要面向单一领域,所考虑的影响因素较为单一,缺乏领域间的协同促进而影响社区发现的准确性。而在很多实际应用中,表示社区结构的图数据往往来自于不同的领域或视角,社区发现要综合考虑多种因素。另外,已有的面向多领域或多视角的社区发现方法要求各个领域要满足一定的约束限制,忽略了实体隶属于某聚簇的可信度,缺少对多个领域聚类结果的融合过程。针对上述问题,本文提出了面向多领域社区发现的实体聚类及聚类融合的相关模型和算法,并从多个角度对算法进行了改进。本文的主要工作及贡献点如下:(1)系统地介绍了社区发现问题的国内外研究现状,简要概述了代表性的相关工作,指出优缺点并分析了已有工作的不足。(2)针对已有问题,提出了一种两阶段的跨领域社区发现模型(Two Phase Cross Domain Community Detection Model,2-CDM)。不同于传统的社区发现模型,2-CDM 在领域内进行社区发现的同时还考虑了其他领域对该领域的影响,利用领域间相互促进的作用来提升社区发现的准确性。该模型将社区发现分为两个阶段,第一阶段通过领域间迭代式协同聚类获得各个领域的社区划分结果;第二阶段将多个领域的社区划分结果进行融合,形成最终的社区划分结果。(3)提出了一种迭代式协同聚类算法(Iterative Collaborative Clustering Algorithm,ICC),该算法通过其他领域的聚类结果对本领域的相似矩阵不断地进行修正,从而实现领域间的相互促进。另外,分析了 ICC算法的不足,从三个角度(基准相似矩阵的构建、相似度修正以及迭代终止条件的设定)对ICC算法进行了优化,提出了改进的迭代式协同聚类算法(Improved Iterative Collaborative Clustering Algorithm,I-ICC)。(4)提出了一种标签合并与投票相结合的跨领域聚类融合算法(Cross Domain Clusters Fusion Algorithm,CDCF),可有效地将多个领域的社区划分结果进行融合。与传统聚类融合算法不同,该算法可适用于各领域内实体不完全相同、聚簇个数不同的情况。(5)通过实验验证了本文所提出的关键技术的可行性和有效性。与单领域社区发现算法相比,ICC算法可以更好地利用多个领域的信息,使社区发现结果更加准确。通过对ICC算法采用多种优化策略后,社区发现的准确度有进一步提升。另外,同传统的聚类融合方法相比,本文提出的CDCF算法能够显著提高最终社区发现的准确性。