论文部分内容阅读
随着人类社会的发展和进步,人们生活中的数据呈现出更多的复杂性、异构性。面对这些纷繁复杂的数据,分类分析往往是一类较为简单有效的方法。聚类分析便是一类广义的分类方法,它可以在某些条件下实现数据的自动分类,对数据进行筛选和处理,不仅让数据的规律性、可靠性大大增强,还可以提取出一些有价值的信息。 谱聚类方法是近年来出现的一类性能优越的聚类算法,能对互不交叉的任意形状数据进行聚类。原始的谱聚类算法可以很好的呈现出数据的本质特征,并将其归类。但在数据之间存在交叉的情形下,谱聚类方法的效果则不甚理想,主要原因是谱聚类算法在设定权值时所考虑的要素太过单一,容易导致算法稳定性较差,受到噪声或其他因素的影响。 针对谱聚类算法的这一缺陷,本文基于欧氏距离与测地线距离设计了一种改进的谱聚类算法,综合考虑数据点之间的距离特性和几何性质进行聚类。 首先介绍了聚类算法及谱聚类算法的基本概念和理论基础,分析了谱聚类算法中已有的研究成果及应用现状,然后总结得出谱聚类研究领域中的几个关键性问题。其次,本文重点分析了多重流形谱聚类算法与传统谱聚类算法的异同。在综合考虑两种方法优缺点的基础上,针对传统的谱聚类算法中相似度矩阵的构造问题,定义了一种新的距离度量,用欧氏距离与测地线距离构造新的结构权值,以此来构造新的权重矩阵,提出了一种改进的谱聚类算法。 最后对比分析了谱聚类算法、多重流形谱聚类算法,以及本文提出的改进算法这三种方法的聚类结果,并进行算法复杂度分析。结果表明:本文提出的改进算法可以处理存在交叉情形的样本数据点,性能更加完善,得到的聚类结果更加理想。