基于仿射传播聚类的数据挖掘算法研究

来源 :兰州理工大学 | 被引量 : 1次 | 上传用户:wangsong1st
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的迅速发展和网络技术的普及,人类社会已经进入到大数据时代。在很多领域中人们需要从海量数据中得到有用的知识和信息,因此产生了数据挖掘的概念,仿射传播聚类算法作为一种重要的数据挖掘算法,以相似度矩阵作为输入,构造吸引度矩阵和归属度矩阵,数据点之间通过吸引度和归属度交换有真实价值的消息,直到一个最优的类代表点集合和聚类逐渐形成。仿射传播聚类算法具有不用指定初始聚类中心及聚类的个数不需要设定等优点,但对结构复杂和维数较高的数据集存在聚类结果比较差、精度低、且聚类个数易受到偏向参数的影响。本文主要围绕仿射传播聚类算法的不足,从以下几个方面展开分析与研究:1.针对仿射传播聚类算法处理结构复杂数据集时存在聚类效果差、精度低等问题,提出了一种基于核函数的半监督仿射传播聚类算法,该算法首先利用核函数将结构复杂的输入数据集映射到特征空间,改变相似性度量,且映射后的数据集呈现线性特征;然后计算映射到特征空间数据的相似度矩阵,通过半监督学习进行调整,使属于同簇内的数据更容易成为近邻;最后将得到的相似度矩阵作为仿射传播聚类算法的输入,迭代更新得到全局最优。仿真结果比对,可以看出改进后的算法处理结构复杂数据集时聚类效果更好、精度更高。2.针对运用半监督仿射传播聚类算法处理高维数据时存在聚类精度低和计算量大的问题,提出一种基于局部线性嵌入的半监督仿射传播聚类算法,该算法首先通过局部线性嵌入算法将输入的高维数据集映射到低维空间得到低维数据集,且映射后的数据集呈现线性特征,计算低维数据集的相似度矩阵,再用半监督算法调整相似度矩阵,最后用仿射传播聚类算法对低维数据进行聚类分析。仿真结果表明改进后的算法在处理高维数据时聚类效果更好、精度更高、迭代次数更少。3.由于仿射传播聚类算法中偏向参数对聚类精度和聚类个数有着直接的影响,但其偏向参数通常都是经验取值,很可能导致得不到最优的聚类结果,针对这一问题提出了基于差分进化的仿射传播聚类算法,该算法首先进行仿射传播聚类分析,其偏向参数取经验值;然后根据得到的聚类结果判断偏向参数是否最优,如果不是则把偏向参数作为差分进化算法的输入群体;最后使用差分算法的变异、杂交和选择操作对参数进行智能调整,选择适应值最高的个体作为偏向参数,返回再次聚类。采用经典数据集验证,实验结果从类数、正确率和FMI三方面表明改进后的算法能够效地解决偏向参数对聚类结果的影响,提高了聚类精度。
其他文献
如今光纤通信技术得到了广泛的使用,要想促进光纤通信技术的发展和进步,需要合理地使用光纤通信技术,而且需要明确的具体发展趋势,确保光纤通信技术的长远发展,给社会的进步
近几年来,我国的信息技术发展取得了阶段性成果,在此基础上使得有线通信技术也实现了飞速发展,作为一种新型的技术已经被社会各界广泛熟知.本文在研究过程中主要针对有线通信
随着人民群众对于网络依赖的逐步提高,网络应用软件繁多,人民对于网络质量的要求越来越高,加大提升网络速率,信号稳定性,日益受到用户关注.新一代的网络技术5G网络应运而生.
气流干燥铜精矿过程是铜闪速熔炼的重要工序之一,热风炉是气流干燥系统的主要设备。在冶炼厂热风炉要消耗大量的能源,如何提高热风炉的能源利用率、降低生产成本,是当前技术改造
电能是电弧炉炼钢过程中最主要的能源,约占总能量的60~70%。最优化技术在于充分发挥电弧炉变压器的能力,使电弧炉炼钢过程的电气运行达到最佳化,从而达到提高冶炼效率、缩短冶
近日,媒体披露的《记者拍区长低头照被辞》的新闻,读后让人深感震惊。  新闻的大意是:2008年1月,北京市通州区召开两会,《通州时讯》在发表邓乃平区长代表区政府向大会作《政府工作报告》时,配发了记者王力利拍摄的邓区长念报告的一幅照片。第二天下午,王力利就因那张照片被辞退。原因是那张照片“邓区长低着头”,“区领导很生气”,指责“区长低着头,闭着眼,形象不佳。”报社领导则认定王力利拍摄的“这张照片作为
5G时代的到来加速了无线大数据的发展,而大数据在众多领域都有着广泛应用,并对各个领域都有着积极的促进作用.鉴于此,本文首先对移动大数据与大数据分析能力分别进行了阐释,