论文部分内容阅读
作为无监督学习方法的一种,聚类分析是从无标记数据集中获取信息和知识的重要手段,是数据挖掘、统计学、模式识别等领域的重要研究内容。通过有效的聚类分析,数据集的内在结构与特征可以被很好地发掘出来。随着数据挖掘和人工智能技术的不断发展,对于聚类分析的研究也得到了较大的发展,目前聚类分析已经被广泛应用于客户推荐、模式分割、视频图像处理等不同的领域。然而,当前已有的聚类分析方法依旧存在着许多不足之处。作为聚类分析中最为重要的一部分,最佳聚类数确定方法是决定聚类质量的关键因素。围绕着这个主题,本文深入的研究了聚类分析中的聚类算法和聚类有效性评价,主要工作如下:(1)针对现有的部分聚类分析方法存在的聚类效果不稳定、无法对多种结构的数据集进行正确聚类的问题,我们将K-means算法和AHC(Agglomerative Hierarchical Clustering,凝聚层次聚类算法)算法的聚类思想相结合,提出了一种混合聚类算法Kmeans-AHC。该算法可以对多种数据结构的数据集进行有效聚类,并且相对传统的AHC算法有效降低了时间复杂度。(2)其次,采用拐点检测的思想,提出了一个基于平均综合度的新聚类有效性指标DAS(Difference of Average Synthesis degree,平均综合度之差),以此来评估KmeansAHC算法聚类结果的质量。新的聚类有效性指标在对非凸型数据集进行有效性评价时要优于当前已有的常用聚类有效性指标。(3)最后,将Kmeans-AHC算法和DAS指标相结合,设计了一种寻找数据集最佳聚类数和最优划分的有效方法。实验结果验证了本文提出的聚类分析方法的有效性。文章的最后,我们总结了本文的主要工作和研究成果,分析了本文提出的算法和指标存在的局限性,针对这些问题提出了一些未来的改进和研究方向。