面向多领域社区发现的实体聚类及聚类融合算法研究

来源 :东北大学 | 被引量 : 1次 | 上传用户:C12sdn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网高端技术的创新与发展,大量的社交网站和内容共享平台不断涌现。用户可以利用这些社交网站和内容共享平台建立自己的社交关系、与他人共享资源等。将这些用户、社交关系以及资源等信息以图的形式表示,即形成了社会网络。随着Web2.0技术的发展,互联网正朝着社区化的方向发展,用户希望通过参与、互动,来获得更多感兴趣的社区信息。因此,需要从社会网络中识别出在某种性质达到局部最优的稠密子图,即社区发现(Community Detection,也称社区挖掘)。社区发现是数据挖掘、机器学习等领域的研究热点,利用社区发现技术可以按照某种关系对实体进行划分,将具有紧密关联关系的实体划分为同一社区,而将差异性较大的实体划入不同社区。社区发现技术可应用到犯罪团伙检测、蛋白质功能预测、Web社区发现、文档聚类等不同领域。然而,传统的社区发现方法主要面向单一领域,所考虑的影响因素较为单一,缺乏领域间的协同促进而影响社区发现的准确性。而在很多实际应用中,表示社区结构的图数据往往来自于不同的领域或视角,社区发现要综合考虑多种因素。另外,已有的面向多领域或多视角的社区发现方法要求各个领域要满足一定的约束限制,忽略了实体隶属于某聚簇的可信度,缺少对多个领域聚类结果的融合过程。针对上述问题,本文提出了面向多领域社区发现的实体聚类及聚类融合的相关模型和算法,并从多个角度对算法进行了改进。本文的主要工作及贡献点如下:(1)系统地介绍了社区发现问题的国内外研究现状,简要概述了代表性的相关工作,指出优缺点并分析了已有工作的不足。(2)针对已有问题,提出了一种两阶段的跨领域社区发现模型(Two Phase Cross Domain Community Detection Model,2-CDM)。不同于传统的社区发现模型,2-CDM 在领域内进行社区发现的同时还考虑了其他领域对该领域的影响,利用领域间相互促进的作用来提升社区发现的准确性。该模型将社区发现分为两个阶段,第一阶段通过领域间迭代式协同聚类获得各个领域的社区划分结果;第二阶段将多个领域的社区划分结果进行融合,形成最终的社区划分结果。(3)提出了一种迭代式协同聚类算法(Iterative Collaborative Clustering Algorithm,ICC),该算法通过其他领域的聚类结果对本领域的相似矩阵不断地进行修正,从而实现领域间的相互促进。另外,分析了 ICC算法的不足,从三个角度(基准相似矩阵的构建、相似度修正以及迭代终止条件的设定)对ICC算法进行了优化,提出了改进的迭代式协同聚类算法(Improved Iterative Collaborative Clustering Algorithm,I-ICC)。(4)提出了一种标签合并与投票相结合的跨领域聚类融合算法(Cross Domain Clusters Fusion Algorithm,CDCF),可有效地将多个领域的社区划分结果进行融合。与传统聚类融合算法不同,该算法可适用于各领域内实体不完全相同、聚簇个数不同的情况。(5)通过实验验证了本文所提出的关键技术的可行性和有效性。与单领域社区发现算法相比,ICC算法可以更好地利用多个领域的信息,使社区发现结果更加准确。通过对ICC算法采用多种优化策略后,社区发现的准确度有进一步提升。另外,同传统的聚类融合方法相比,本文提出的CDCF算法能够显著提高最终社区发现的准确性。
其他文献
随着国民经济增长速度加快,居民生活条件改善,汽车已不在是奢侈品而是以普通消费品的身份进入国民生活,汽车保有量逐年增加,而泊车位的空间却越来越紧凑,停车难也成为一个社会普遍现象,智能化的自动泊车系统为人们停车难的问题带来了很好的解决方案。近年来无人驾驶方面技术的深入研究也为自动泊车系统在理论上提供了坚实的技术基础,因此,自动泊车系统被国内外各大高校和科研机构作为研究的重点对象。自动泊车的主要组成部分
目的:通过收集临床无功能垂体腺瘤患者的临床资料,并按照神经内分泌肿瘤新分类标准对收集的临床资料进行研究分析,以探讨新分类标准下临床无功能垂体腺瘤的病理学特征与临床表现,为临床诊治相关垂体腺瘤提供参考依据。方法:本研究通过搜集我院神经外科2018年4月16日至2019年8月31日经手术治疗的220例临床无功能垂体腺瘤患者的临床资料(同期手术治疗的垂体腺瘤患者共482例),并结合2017新版内分泌肿瘤
歌剧《白毛女》是中国音乐艺术的瑰宝,是中国民族歌剧的奠基石,自1945年首演以来,先后历经四次大型排演,其剧本情节、音乐旋律以及演唱艺术在历史更迭中均发生了丰富多元的变化。本文在绪论部分将对四代“喜儿”所指、研究版本依据以及课题研究现状做简要阐述,正文部分以主人公“喜儿”最具代表性的咏叹之一《恨似高山仇似海》为切入点,运用文献阅读法、观察法、实证研究法、分析比较法等研究方法,从音乐学、政治学、文艺
目前,我国铁路线路是大宗散装货物运输的主要途径之一。在我国北方高寒区域,冬季时节运输诸如煤炭、矿粉、粘土等易冻结的散装货物时,运输的货物经常会与货车地板底部、侧墙等部位或与其他货物之间发生冻结的现象,进而给卸车造成较大困难。通常使用解冻库来最大限度降低上述所说的负面效应,而如何科学合理的确定其主风管参数并明确设置依据,在不损害到车辆零部件的同时尽可能提高解冻效率,是当前各企业所需攻关克难的核心问题
宋城(今河南商丘市)蔡氏家族在北宋时期众多大家族中,家族规模相对较小且兴盛时间相对较短,是北宋以科举起家的代表性家族。其成就主要集中在政治上,兴起于北宋中期,属于新型世族。其家族成员的政治活动主要在仁宗、英宗、神宗三朝。家族成员中,第一代为中下层官吏,主要起到了奠基作用。自以蔡抗、蔡挺为代表的第二代发家,蔡抗为英宗潜邸旧人,得到英宗的赏识;蔡挺官至枢密副使,参与了对抗西夏、王安石改革等重要历史事件
随着计算机技术的飞速发展,各行各业无时无刻都在产生大量复杂的数据,其中高维数据的涌现一方面给数据驱动建模问题带来了前所未有的挑战,它们不仅会消耗更多的计算时间,占用更多的存储资源,甚至会降低模型学习的性能;另一方面,高维数据中冗余和不相关的特征严重影响具体学习任务的进一步深入研究。特征选择作为一种数据降维方法,是指从已有数据特征中选择出具有代表性的少量紧致特征子集来表达原始数据,并能保持原有数据的
商业是国民经济的重要组成部分,先秦时期已对商业采取双管齐下的管理,即政策约束与法制约束,其后被历代统治者所效仿。而这种约束并不能完全阻止商业成为社会经济生活中越来
内蒙古自治区开展的嘎查村级公益事业建设一事一议财政奖补工作,以推进社会主义新农村新牧区建设为目标,以农牧民自愿出资出劳为基础,以政府奖补资金为引导,建立政府激励引导
为了降低采购成本以及提高运作效率,政府机关和大型企业集团在采购商品时大多选择集中采购的方式。随着电子商务的快速发展,逆向拍卖逐渐成为近年来被广泛认可的一种新型网上
人工智能是使计算机来模拟人的某些思维过程和智能行为的学科,制造类似于人脑智能的计算机,使计算机能实现更高层次的应用。现实生活中人类的语言是千变万化的,要使计算机模