谱聚类算法改进及在社交网络中的应用

被引量 : 3次 | 上传用户:DKarson
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是将数据划分成多个簇(或类)的过程。与有监督的分类技术相比,聚类分析是无监督学习,它是在没有训练的情况下将数据对象划分为若干个簇,数据对象属于哪个簇以及分为几个簇取决于数据本身。传统的聚类算法中,高效的k-means算法和EM算法得到了广泛的应用。然而,这两种传统聚类算法只能发现凸球形的样本空间,当样本空间不为凸球形时,算法将陷入局部最优解。谱聚类算法近几年受到了研究人员的广泛的关注,它是数据挖掘和机器学习领域的又一个研究热点。与传统的聚类算法相比,谱聚类算法能够在任意形状的样本空间中发现正确聚类,且最终收敛在全局最优解。谱聚类算法以谱图理论为基础,通过Laplacian矩阵将原数据空间进行重构,降低聚类分析对象的维度,这使得数据在子空间上的分布结构更为清楚。能得到优秀聚类结果的同时,谱聚类算法也存在很多问题,为了使算法应用更广泛,谱聚类算法本身还有很多需要研究人员对其进行优化的地方。本文将对这些问题做简要介绍。针对传统谱聚类算法对高斯核函数参数σ敏感的问题,受密度敏感相似性度量的启发,本文设计了两种相似性度量方法,这两种相似性度量方法都没有引入高斯核函数参数,两种方法的主要区别在于第一种引入了最短路径,而第二种没有,实验证明第二种相似性度量综合性能更佳,通过实验验证了其提高了整个算法的稳定性。谱聚类算法为配对算法,算法最后一阶段是利用k-means(或其他传统聚类算法)对选择的特征向量进行聚类,而k-means算法对初始聚类中心敏感,因此本文同时还设计了一种简单却很有效的优化初始聚类中心的k-means算法,将该方法应用到本文改进的谱聚类算法,实验证明进一步使聚类结果更加稳定。最后本文结合改进的谱聚类算法提出了一种应用于社交网络聚类的算法框架。它包括一种有效的抽样技术,能够选择一个最优的代表子图,既保证了训练阶段的聚类质量又减少了计算时间。此外,运用模块性选择最佳的聚类模型(即选择合适的相关参数,比如聚类个数k),通过实验证明了该算法框架的有效性。
其他文献
当今世界经济全球化、金融自由化趋向明显,短期资本的大规模流动成为常态。并且随着世界证券市场以及金融衍生品市场的发展,热钱流动规模日趋庞大,短期国际资本中的热钱已经成为
南岳衡山地处湖南,是中国著名的宗教圣地。其中佛教和道教自魏晋南北朝以来在衡山上共同生存并发展已有一千七百多年历史。全文共分为四章。第一章,以魏晋南北朝时期的时代大
目的:1.检测喘息性支气管炎、支气管哮喘及下呼吸道感染(不伴喘息症状)儿童血清25羟维生素D3(25-OH-D3)的水平;2.检测喘息性、支气管哮喘及下呼吸道感染(不伴喘息症状)儿童血清总IgE
目的:观察并分析玻璃体腔注射雷珠单抗联合视网膜激光光凝术治疗视网膜分支静脉阻塞(branch retinal vein occlusion, BRVO)继发黄斑水肿(macular edema,ME)的疗效及安全性。方法:2
吸引消费者注意力的问题是任何广告都要解决的首要问题。老上海作为20世纪初期中国电影产业的中心,在宣传各种电影信息的各式广告中吸引观众注意力的方法较多,通过文字、图形
随着新课程改革的不断深入,教学档案袋作为一种质性评价法越来越受到关注。档案袋评价在美国已经有了三十多年的历史,中国学校中的国际部也已经广泛运用,取得了非常好的教学效果
<正> 在改革大潮中,中国广大的教育工作者以极大的热情和创新精神,进行着前所未有的大范围的农村教育改革实验,开始突破陈旧的教育观念和模式,一个符合中国国情,能够促进经济
研究了低品位烟气余热利用有机朗肯循环系统的节能潜力。选取10种循环工质,以120℃~160℃烟气为热源建立系统的数学模型,以某1000MW超超临界再热机组为例,根据热力学第一、第
中国美术馆从1963年正式对外开放,至今已有五十年的发展历程。本文通过对“美术馆学”这一学科的思考,旨在研究中国美术馆不同历史时期的发展与变化,探究其在陈列展览的意涵,
当今社会,由于互联网行业迅猛发展带来的冲击,迫切要求纸媒企业进行创新、转型,并利用自身行业特点,加强完善经营管理,争取最大经济效益和社会效益。因此,将管理会计的有效应