初始聚类中心优化的K-means改进算法

被引量 : 29次 | 上传用户:fuji2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从庞大而复杂的数据中分析和提取出对用户有利用价值的信息的过程称为数据挖掘。数据挖掘的一个重要分支为聚类分析,聚类分析能够按照数据对象间的相似度将数据分成若干类或簇。它既可以作为其它数据挖掘算法的预处理步骤,也可以独立作为发现隐藏信息的数据挖掘方法。K-means算法被认为是聚类中最重要的无监督机器学习方法。它是一种划分聚类算法,将全部数据分为k个相互差异很大的子类,通过不断的迭代,使得k-means算法中每个数据对象到其所在的子类的中心点的距离最小。由于k-means算法具有简单易行和效率高等优点,它被广泛应用于数据挖掘、模式识别、知识发现等许多领域。但是,k-means算法仍然存在一定的局限性,例如,聚类数k必须预先设定;对初始聚类中心极为敏感,如果初始聚类中心选择不当,算法很容易陷入局部最优解,而非全局最优解。在本文中,为减少k-means算法对初值的依赖性,提高算法有效性,我们详细探讨了初始聚类中心的优化选择问题,并提出全新的IU-M k-means算法(K-means ClusteringAlgorithm based on Improved UPGMA and Max-min Distance Algorithm),它首先采取简单随机抽样,得到简化的、数目较少的备选聚类种子集合,再结合改进的UPGMA算法和最大最小距离法寻找到最佳初始聚类中心,以改进K-means算法。一方面,该算法可以获得优化的初始聚类中心,提高聚类效果;另一方面,能够智能的判断出聚类数目k,从而较大程度上避免了初值选择的随机性。将IU-M k-means算法和基于最大最小距离的k-means算法分别应用于UCI数据库的Balance-Scale、Glass和New-thyroid三组标准数据集进行对比实验后发现,基于最大最小距离的K-means算法已经在K-means算法上进行了改进,IU-M k-means算法在此基础上进一步提升了聚类效果,具有良好的稳定性和可行性。
其他文献
目的初步建立一种新的食物营养价值评价指标。方法依据2002年中国居民膳食调查结果和有关文献,确定脂肪、胆固醇和钠为限量营养素,蛋白质、膳食纤维、维生素C、维生素A、维生
频率效应在二语习得中占有重要的地位。本研究以二语习得中的频率效应为理论基础,旨在通过实证进一步探究频率效应对外贸英语函电写作的影响。研究以湖北省属院校商务英语专
海洋环境中,船舶的内舱和舷外结构,海洋平台和港工设施的潮差,飞溅及大气段均存在严重的腐蚀问题。喷涂金属防护涂层技术是目前国际上解决海洋环境中钢结构长效防护的重要手段。
<正>《江苏警官学院学报》是江苏警官学院主办的一份公安学期刊,国内统一刊号:CN32-1704/Z,国际标准刊号:ISSN 1672-1020,江苏省一级期刊,江苏期刊方阵期刊,全国优秀社科学报
本文试图采用质性研究,通过对西北地区某个案国有企业(“典型单位”)的实地调查,在充分占有第一手资料的基础上,从社会学新制度主义视角描述了职代会及其功能变迁过程,分析了影响职
对2~6岁反复呼吸道感染(RRI)病例进行了大剂量维生素A(VA)干预的随机对照研究,治疗组27例(服VA20万IU),病例对照组22例(服空白对照丸),结果显示:服药后第4周末治疗组血清VA水平高于病例对照组,差异有显着性(P<0.05),血清游
对于日本著名作家三岛由纪夫而言,死亡具有绝对的魅力。在他所构筑的文学世界中,死亡主题占据了绝大多数,为美而亡、为爱而死、为理想而殉身,是他笔下渲染最多的死亡主题。死
Ball-Berry气孔导度模型及其修正模型是评价植物叶片气孔调节的重要工具。该文从CO2分子在叶片气孔中扩散这个最基本的物理过程出发,应用物理学中的分子扩散和碰撞理论、流体
杨家林教授从事中医妇科临床工作近43年,积累了丰富的经验,本文总结了杨家林教授灵活运用疏肝理气法,以四逆散为主方随证化裁治疗妇科痛证的经验。
材料编码是工程公司信息化管理的重要问题。要实施信息化管理,无论是EPC材料信息控制系统,还是其他与EPC工程有关的信息系统,首要的问题就是如何进行信息分类编码。本文着眼