论文部分内容阅读
聚类是数据挖掘领域中重要的技术之一,用于发现数据中未知的分类。聚类算法是机器学习、数据挖掘和模式识别等研究方向的重要研究内容之一,在识别数据对象的内在关系方面,具有极其重要的作用。聚类主要应用于模式识别中的语音识别、字符识别。机器学习中的聚类算法应用于图像分割,图像处理中,主要用于数据压缩、信息检索。聚类的另一个主要应用是数据挖掘、时空数据库应用、序列和异常数据分析等。此外,聚类还应用于统计科学,同时,在生物学、地质学、地理学以及市场营销等方面也有着重要的作用。本文重点对层次聚类算法进行了分析和研究,并给出了层次聚类算法存在的缺陷,阐述了几种改进算法的思想和应用范围。然后对层次聚类算法——CURE进行了改进。由于CURE聚类算法具有处理噪声数据的能力,而且可以挖掘任意形状的类(簇),但是该算法时间复杂度较高。而基于划分的k-means算法时间复杂度较低,当处理大数据集时相对来说是可伸缩的、高效的,但是该算法不适合于发现非凸面形状的簇,或者大小差别很大的簇。而且,它对于“噪声”和孤立点数据是敏感的,少量的该类数据能够对平均值产生极大的影响。因此本文提出一种k-means与CURE相结合的算法——CCKMC (Combinations of Cure and K-Means Cluster)将这两类算法相互结合,恰好可以互为补充,相得益彰。在以上研究的基础上,本文探讨了CCKMC聚类算法在彩色图像分割中的应用问题。图像分割是基于区域对象的识别方法,分割效果的好坏将严重影响识别的性能。从数据挖掘的角度看图像分割实际上就是将属于同一个像素的对象归入到同一个类。聚类方法可以在无先验知识的情况下将数据集划分为不同的类,将图像的所有像素当作一个集合,应用CCKMC聚类算法可以将彩色图像中的像素进行正确分类,从而得到较好的分割结果。本文通过实验证明了该算法可以很好地分割彩色图像中的不同目标区域,因此将CCKMC聚类算法用于图像分割的研究具有实际指导意义。