论文部分内容阅读
聚类算法是数据挖掘中重要的研究领域,聚类有效性是根据聚类理论方法能判别聚类质量高低的指标.。聚类有效性验证方法主要有基于内部或外部准则的统计假设检验,聚类层次的有效性,单独聚类的有效性,Dunn和类Dunn指标,Davies-Bouldin和类DB指标,Gap统计等。聚类算法常见的有分层聚类算法、网格聚类算法、基于密度聚类算法、基于划分的聚类算法、其它聚类算法等。但这些算法常常采用欧氏距离来度量相似性的,而欧氏距离将样品的不同属性之间的差别等同看待,易受变量之间的相关性干扰,不仅影响聚类的速度和质量,还影响聚类有效性指标的性能,有时不能满足实际要求。另一方面,对两点之间进行距离度量的马氏距离具有很多优点,如它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关,由标准化数据和中心化数据计算出的二点之间的马氏距离相同,马氏距离还可以排除变量之间的相关性的干扰。本文探讨了分层聚类算法和欧氏距离的局限性,充分考虑数据的几何结构特征和个体属性,结合马氏距离提出了一种新的属性相似性度量方法及新的聚类有效性函数,并对采用欧氏距离的分层聚类算法进行了改进,实验表明改进算法具有一定的优越性。