论文部分内容阅读
从庞大而复杂的数据中分析和提取出对用户有利用价值的信息的过程称为数据挖掘。数据挖掘的一个重要分支为聚类分析,聚类分析能够按照数据对象间的相似度将数据分成若干类或簇。它既可以作为其它数据挖掘算法的预处理步骤,也可以独立作为发现隐藏信息的数据挖掘方法。K-means算法被认为是聚类中最重要的无监督机器学习方法。它是一种划分聚类算法,将全部数据分为k个相互差异很大的子类,通过不断的迭代,使得k-means算法中每个数据对象到其所在的子类的中心点的距离最小。由于k-means算法具有简单易行和效率高等优点,它被广泛应用于数据挖掘、模式识别、知识发现等许多领域。但是,k-means算法仍然存在一定的局限性,例如,聚类数k必须预先设定;对初始聚类中心极为敏感,如果初始聚类中心选择不当,算法很容易陷入局部最优解,而非全局最优解。在本文中,为减少k-means算法对初值的依赖性,提高算法有效性,我们详细探讨了初始聚类中心的优化选择问题,并提出全新的IU-M k-means算法(K-means ClusteringAlgorithm based on Improved UPGMA and Max-min Distance Algorithm),它首先采取简单随机抽样,得到简化的、数目较少的备选聚类种子集合,再结合改进的UPGMA算法和最大最小距离法寻找到最佳初始聚类中心,以改进K-means算法。一方面,该算法可以获得优化的初始聚类中心,提高聚类效果;另一方面,能够智能的判断出聚类数目k,从而较大程度上避免了初值选择的随机性。将IU-M k-means算法和基于最大最小距离的k-means算法分别应用于UCI数据库的Balance-Scale、Glass和New-thyroid三组标准数据集进行对比实验后发现,基于最大最小距离的K-means算法已经在K-means算法上进行了改进,IU-M k-means算法在此基础上进一步提升了聚类效果,具有良好的稳定性和可行性。