一种改进的谱聚类方法及其应用研究

来源 :河北科技大学 | 被引量 : 2次 | 上传用户:bidhq0716
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类社会的发展和进步,人们生活中的数据呈现出更多的复杂性、异构性。面对这些纷繁复杂的数据,分类分析往往是一类较为简单有效的方法。聚类分析便是一类广义的分类方法,它可以在某些条件下实现数据的自动分类,对数据进行筛选和处理,不仅让数据的规律性、可靠性大大增强,还可以提取出一些有价值的信息。  谱聚类方法是近年来出现的一类性能优越的聚类算法,能对互不交叉的任意形状数据进行聚类。原始的谱聚类算法可以很好的呈现出数据的本质特征,并将其归类。但在数据之间存在交叉的情形下,谱聚类方法的效果则不甚理想,主要原因是谱聚类算法在设定权值时所考虑的要素太过单一,容易导致算法稳定性较差,受到噪声或其他因素的影响。  针对谱聚类算法的这一缺陷,本文基于欧氏距离与测地线距离设计了一种改进的谱聚类算法,综合考虑数据点之间的距离特性和几何性质进行聚类。  首先介绍了聚类算法及谱聚类算法的基本概念和理论基础,分析了谱聚类算法中已有的研究成果及应用现状,然后总结得出谱聚类研究领域中的几个关键性问题。其次,本文重点分析了多重流形谱聚类算法与传统谱聚类算法的异同。在综合考虑两种方法优缺点的基础上,针对传统的谱聚类算法中相似度矩阵的构造问题,定义了一种新的距离度量,用欧氏距离与测地线距离构造新的结构权值,以此来构造新的权重矩阵,提出了一种改进的谱聚类算法。  最后对比分析了谱聚类算法、多重流形谱聚类算法,以及本文提出的改进算法这三种方法的聚类结果,并进行算法复杂度分析。结果表明:本文提出的改进算法可以处理存在交叉情形的样本数据点,性能更加完善,得到的聚类结果更加理想。
其他文献
摘 要:天然气处理站是天津市甲级防火防爆单位,也是大港油田公司消防安全生产重点单位,储存着大量的易燃易爆物品――稳定轻烃和液化石油气。其中液化石油气属于甲类火灾危险性物质,常温高压下储存于压力容器中,火灾危险性极大,一旦泄漏极易引起火灾爆炸,造成人员伤亡和巨大财产损失。因此,对液化石油气储罐进行火灾风险分析,提出相应的危害预防及控制措施,对确保液化石油气储存过程的安全,预防重大事故的发生具有重要意
近年来,偏序集与格论在拓扑学、组合数学、模糊数学、粗糙集理论以及理论计算机科学中都得到了广泛的应用,它们之间有着密切的联系。本文主要在偏序集与格论的基础上,研究拓扑空