论文部分内容阅读
聚类就是按照事物的某些属性,把事物聚集成类,使类间的相似性尽可能小,类内相似性尽可能大。聚类是一个无监督的学习过程,它同分类的根本区别在于:分类是需要事先知道所依据的数据特征,而聚类是要找到这个数据特征,因此,在很多应用中,聚类分析作为一种数据预处理过程,是进一步分析和处理数据的基础。聚类分析是一种重要的人类行为。聚类分析算法取决于数据的类型、聚类的目的和应用领域。在当今飞速发展的数据采掘和探查性数据分析中,聚类分析技术已广泛应用于模式识别和图像处理、生物、心理、计算机视觉和遥感等领域。在实际问题中,传统的聚类分析技术普遍存在的不足之处主要表现在以下几个方面:聚类结果对初始化参数的敏感性和强依赖性;很难定义聚类的有效性问题,合理的聚类数目难以确定;直接的物理可解释性较差。近年来,神经生理学的发展和计算机辅助解剖学的研究提出了几个相当精确的初级视觉系统计算模型,它们分别建模于视觉系统的不同部分的不同层次。尺度空间理论便是其中之一,它定量地描述由视网膜侧向联接所造成的图像模糊化效应。本文通过视觉原理与尺度空间算法结合,提出视觉系统的结构显著性假设和稳定性假设,利用尺度空间聚类算法,得到不同层次的有效聚类。主要工作:1、聚类算法比较聚类算法有很多种,需要根据应用所涉及的数据类型、聚类的目的以及具体应用要求来选择合适的聚类算法。聚类算法大体可以划分为以下几类:划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法。然后对各种聚类具体算法进行比较,得出不同方法之间在性能上的不同。2、视觉系统的结构假设通过介绍视觉系统、Weber定律、视觉系统的结构显著性假设和稳定性假设,为下一章尺度空间聚类算法做好铺垫。视觉系统的结构显著性假设:那些引起较多神经细胞兴奋的结构要比那些引起较少神经细胞兴奋的结构更为重要。视觉系统的结构稳定性假设:那些在较大尺度范围内可观察到的物体结构较之那些在较小尺度范围内可观察到的物体结构更为重要。3、尺度空间聚类算法首先介绍尺度空间概念,介绍视网膜生物模型,视觉前端系统的尺度空间模型,重点介绍尺度空间聚类算法。尺度空间原理:当尺度参数充分小时,每一数据点是一个类,而当尺度参数逐渐变大时,小的数据类逐渐溶合形成大的数据类。这一分类方式所产生的结果构成一树形图,结点代表不同尺度聚类的类,父亲结点所表示的类由儿子结点所代表的类溶合而成。这一聚类算法属逐级聚类算法,它包含了数据的一系列分类。4、聚类有效性的问题聚类有效性是聚类分析中一个较为困难的问题,它涉及算法产生的数据结构的意义及解释,诸如数据中存在多少个类、由算法得到的类是真实的吗、哪一种划分更有效等一系列问题。通过四个方面的解释,对聚类有效性作出判断。5、举例说明通过模拟数值试验,用以说明尺度聚类算法可得到不同层次的有效聚类。