基于密度的统计合并聚类算法

来源 :南京航空航天大学 | 被引量 : 0次 | 上传用户:linyuan0213
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着国家经济的快速发展和网络技术的广泛应用,数据源开始不断地膨胀,人们获取的数据集规模逐渐增大,数据结构也变得日渐复杂,如何从大规模复杂结构的数据中获取有效信息成为当下的研究热点。聚类分析作为数据挖掘领域中一项重要的数据分析技术,在模式识别、信息处理、机器学习等领域都有着广泛的应用前景。由于初始条件和聚类准则的不唯一性,使得各种各样的聚类算法应运而生。但面对越来越多具有类间相似、类内相异、噪声、重叠等现象的大型数据集,现有聚类算法的局限性日益凸显。针对传统聚类算法处理噪声和重叠现象能力差的问题,本文从统计学的角度出发,提出了一种基于密度的统计合并聚类算法(DSM)。该算法创新性地将数据点的每一个特征看作一组独立随机变量,并根据独立有限差分不等式得出统计合并判定准则,同时,结合数据点的密度信息,把密度从大到小的排序作为凝聚过程中的合并顺序,实现了各类数据点的统计合并。人工数据集和真实数据集的实验结果表明:DSM算法不仅可以处理凸状数据集,对于非凸状、重叠、加入噪声的数据集也有良好的聚类效果,充分说明了该算法良好的适用性和有效性。针对处理大数据时传统聚类算法失效或大数据聚类算法效果不理想的问题,本文从数据抽样的角度出发,提出了一种大数据的密度统计合并算法(DSML)。该算法是DSM算法在应用范围上的推广。首先利用统计合并判定准则对Leaders算法做出改进,获得新的抽样算法—Statistical Leaders算法;然后将Statistical Leaders算法与DSM算法相结合,完成对整个数据集的聚类。理论分析和实验结果表明:DSML算法能获得更具代表性的样本集,具有近似线性的时间复杂度,可处理任意形状的数据集,且对噪声具有良好的鲁棒性,非常有利于处理大规模数据。
其他文献
本文探讨κ-范畴的结构及其表示的问题,主要由三个部分组成.第一部分,[45]给出了Hopf-模范畴的定义,这一部分研究Hopf-模范畴在甲凡扩张及幂等完备化下相应范畴结构的保持问题,考
在国际国内建筑市场竞争激烈的环境中,精细化管理的关键是建设项目全过程造价管理。本文从工程的投资决策、设计、实施、竣工验收四个阶段论述了如何有效的控制建设项目工程造
期刊
众所周知,自然界大量存在的相互作用是非线性的,无论是数学、物理等基础学科还是经济、工程等应用领域均存在很多非线性问题,它们都可用一系列非线性动力系统来描述。而稳定
在[1]中,Hoffman给出了复格拉斯曼流形G的上同调环的自同构的分类。本文指出有些自同构可以由G的自映射诱导,而有些则不能。
本文中我们讨论了周期位势和相互作用凸势能作用下的一类非线性耦合振子系统的动力性态.通过寻找系统的凸不变区域,我们利用单调性证明了系统在周期边界和Neumann边界条件下的P
本文主要利用半群理论,研究了具有优先权且有热储备部件的并串联可修复系统的指数稳定性分析,对实际生产、生活具有重要的意义。研究的是一类由两个系统,子系统A和子系统B组成的
1999年Petrich和Reilly在文[2]中提出了这样一个公开问题:“What can be said about y*?”本文讨论这一问题.全文共分四章. 第一章给出一般半群及完全正则半群的一些基本概念
本文研究不确定时滞系统的鲁棒控制问题。首先综述了鲁棒控制理论和线性矩阵不等式方法的发展现状,然后针对几种不同类型的不确定时滞系统,研究这些系统的鲁棒稳定性条件和鲁