一种新的动态重叠聚类算法

被引量 : 0次 | 上传用户:fulva
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社会网络是一种基于个体成员之间相互作用和影响而形成的社会组织形式,其最早是从人文社会学的视角进行分析,随着计算机及互联网技术的发展,逐渐演变成为社会科学和计算机科学交叉研究的领域。社会网络广泛存在于现实世界中,例如人际关系网络、科研引文网络、流行病传播网络以及互联网等。因此,挖掘社会网络中潜在的规律和特性是具有实际意义的。社会网络最显著的特征是其存在群聚结构,通常称为簇或社区,而发现这种群聚结构最常用的方法则是聚类。聚类是数据挖掘中的主要方法之一,其目的在于通过自动化方法发现大量数据中存在的聚集特性,以提取其中蕴含的潜在规律。聚类形成的结果称为簇,簇中对象具有相似属性,簇间对象具有不同属性。聚类有很长的历史,并且应用在诸多领域,例如医药、主题检测与追踪、图像分割、社会网络分析等。聚类方法很多,根据算法的基本思想,可以分为基于约束的聚类、层次聚类、基于机器学习的聚类、分割聚类、高维数据聚类等。大部分的聚类算法将对象划分到一个簇中,即簇之间是不相交的。然而,在真实世界中,单个个体可以属于多个群体,例如一个人既是家庭中的一员,又是所在单位的一员,还可以跟自己的老同学形成一个圈子。反映到聚类问题上,即不同簇之间会有交叉重叠的部分,节点可以同时属于多个簇。以往的研究要求簇之间没有重叠,节点只能属于一个簇,因此该问题得到很多研究者的关注。本文对相关重叠聚类算法进行了介绍。当前的重叠聚类算法,有着诸多缺点,例如计算复杂度高、挖掘到的重叠区域过大、不能动态处理数据集的变化,等等。随着互联网技术的发展,特别是Web2.0时代的到来,网民与网络有了更多的交互行为,一些应用如RSS、博客、新闻网站、微博、SNS等,其中的信息瞬息万变,目前的重叠聚类算法不能很好地处理这种动态的变化。基于此,本文在星形子图重叠聚类算法的基础上做了改进,同时考虑了结点之间的连接密集性以及连接强度,扩展了簇的规模,减少了重叠区域。在基于LFR基准网络数据集的实验中,本文采用了聚类数量、重叠结点准确率召回率与F1值、规范化互信息值(NMI)这几个评价标准,并且对比了动态更新簇时所用的时间。实验结果表明,新的算法能够形成较高质量的簇,在发现重叠结点时具有较高的准确率与F1值,在处理稀疏网络时具有较高的NMI值,且在动态处理簇中结点的添加与删除时具有较低的时间消耗。综合而言,新的算法更适用于真实世界中复杂网络的重叠聚类与动态分析。
其他文献
随着创意经济时代的来临,创意人才已然成为企业的核心竞争优势,企业对创意人才开发、培养和利用成为关键。虽然我国对于创意产业进行发展的起步较晚,但国家对其支持投入力度
可同化有机碳(AOC)作为水质生物稳定性的评价指标,被国内外研究学者广泛研究。传统的水处理工艺对AOC的去除效果有限且不稳定,饮用水深度处理工艺对AOC的影响各有不同。主要
青海各族人民在历史发展中为满足经生活、物质等需求创造了具有本民族特色的传统工艺。地处青海东部的湟中县独特的文化背景孕育了种类繁多的民族民间工艺,成为青海省民间工
菊芋多糖是由D-果糖通过β(1→2)糖苷键连接而成的,是一种非常安全的食品添加剂,对人体有显著的保健功能,菊芋对于生长环境要求低,近年来,菊芋受到国内外的人士的重视,必有好的应用前
在知识经济时代,无形资产越来越受到关注,尤其是在其企业价值创造中所发挥的作用。2006年财政部发布新会计准则,该准则对无形资产概念的界定和适用范围都发生了一定的变化,新
随着世界政治格局的急剧变化以及全球化的加速发展,人们已经不再满足仅从政治、经济、军事的方面来探讨国际关系,文化逐渐成为人们分析世界政治与国际关系一个新的视角。多极
混凝土桥梁的节段预制装配技术于20世纪中叶起源于法国。该技术在质量控制、施工速度和环境保护方面都具有很大的优势。但是,在我国铁路桥梁特别是高速铁路桥梁领域,此项技术
随着网络数据量的急剧增加,从海量数据中挖掘有价值的信息成为一项重要技术。特别是在电子商务等领域,用户与商品之间的相关性有巨大的商业价值,而推荐系统就是为寻找这样一
高性能航空复合材料在现代航空器的承力和非承力结构中得到了广泛应用。民航飞机复合材料表层结构所用的底漆涂层必须具备优异的综合性能,国外已实现相关材料的系列化和产业
承德奥体中心的钢结构屋顶采用的是车辅式结构,大屋盖直径在150m,左右,设计的小屋盖为支撑与大屋盖直径25m的内环上的椭圆形平屋盖,外沿直径在40m,呈自锁式马鞍型外环的异形