论文部分内容阅读
过去几十年,研究者们提出了大量适用于硬聚类的聚类有效性指标。然而,现有的聚类评价方法会受到各种数据特征的影响。例如,带有噪声的数据、不同密度的数据、任意形状的数据等等都可能影响内部指标的性能。针对以上问题,本文在分析影响聚类算法性能的主要因素的基础上研究了聚类有效性评价,提出了三种新的聚类有效性内部指标。主要工作内容如下:(1)为了克服现有的度量方法作为单连接聚类的簇内紧密度的缺点,本文使用最小生成树的最长边作为簇内紧密度,提出了一种针对单链接算法的综合聚类有效性指标(synthetical clustering validity index,简称SCV)。该指标根据统计方法的不同又可以分为amSCV、gmSCV两种。(2)SCV指标在评价单链接算法时表现良好,但是不适用其他层次聚类算法。为此,本文提出了一种广义综合聚类有效性指标(generalized synthetical clustering validity index,简称GSCV)。该指标采用自适应相似性度量策略对聚类结果进行评价,避免了聚类算法与内部指标之间的相似性度量方法的不兼容性造成的内部指标性能下降的情况。根据统计方法的不同,GSCV指标又可以分为amGSCV、gmGSCV两种。本文分别在15个模拟数据集(具有不同维数、空间分布、重叠度和规模)和4个真实数据集上验证新指标的性能,并与其他七个常用的内部指标进行了对比。实验结果表明:SCV、GSCV指标能够准确获取在簇密度、偏态分布、几何结构等方面不同的数据集的最优聚类数目。(3)SCV指标和GSCV指标可以统一为一个聚类有效性指标框架(Hierarchical clustering validity framework,简称HCVF)来评价层次聚类。然而,由于HCVF建立于层次聚类算法生成的层次结构基础之上,因此该框架只能用于评价层次聚类算法生成的聚类结果。为解决这一问题,本文对子类概念进行了延伸以使新指标能够适用于非层次聚类算法。此外,本文引入了图论对HCVF框架进行了改进,该方法在捕获数据集的空间结构的同时降低了新指标使用的时间复杂度。改进后的聚类有效性指标(Graph-based clsutering validity index,GBCV)继承了HCVF框架的优点,并且适用于非层次聚类算法、大幅度降低了使用内部指标的时间复杂度。本文分别在12个模拟数据集(具有不同维数、空间分布、重叠度和规模)和6个真实数据集上验证新指标的性能,并与其他七个常用的内部指标进行了对比。实验结果表明:GBCV指标能够准确获取在簇密度、偏态分布、几何结构等方面不同的数据集的最优聚类数目。