层次聚类算法的研究与应用

来源 :江西理工大学 | 被引量 : 0次 | 上传用户:tanshuyao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类是数据挖掘领域中重要的技术之一,用于发现数据中未知的分类。聚类算法是机器学习、数据挖掘和模式识别等研究方向的重要研究内容之一,在识别数据对象的内在关系方面,具有极其重要的作用。聚类主要应用于模式识别中的语音识别、字符识别。机器学习中的聚类算法应用于图像分割,图像处理中,主要用于数据压缩、信息检索。聚类的另一个主要应用是数据挖掘、时空数据库应用、序列和异常数据分析等。此外,聚类还应用于统计科学,同时,在生物学、地质学、地理学以及市场营销等方面也有着重要的作用。本文重点对层次聚类算法进行了分析和研究,并给出了层次聚类算法存在的缺陷,阐述了几种改进算法的思想和应用范围。然后对层次聚类算法——CURE进行了改进。由于CURE聚类算法具有处理噪声数据的能力,而且可以挖掘任意形状的类(簇),但是该算法时间复杂度较高。而基于划分的k-means算法时间复杂度较低,当处理大数据集时相对来说是可伸缩的、高效的,但是该算法不适合于发现非凸面形状的簇,或者大小差别很大的簇。而且,它对于“噪声”和孤立点数据是敏感的,少量的该类数据能够对平均值产生极大的影响。因此本文提出一种k-means与CURE相结合的算法——CCKMC (Combinations of Cure and K-Means Cluster)将这两类算法相互结合,恰好可以互为补充,相得益彰。在以上研究的基础上,本文探讨了CCKMC聚类算法在彩色图像分割中的应用问题。图像分割是基于区域对象的识别方法,分割效果的好坏将严重影响识别的性能。从数据挖掘的角度看图像分割实际上就是将属于同一个像素的对象归入到同一个类。聚类方法可以在无先验知识的情况下将数据集划分为不同的类,将图像的所有像素当作一个集合,应用CCKMC聚类算法可以将彩色图像中的像素进行正确分类,从而得到较好的分割结果。本文通过实验证明了该算法可以很好地分割彩色图像中的不同目标区域,因此将CCKMC聚类算法用于图像分割的研究具有实际指导意义。
其他文献
员工对企业的价值已经越来越被企业所重视,员工满意度也成为企业提升绩效的重要手段。通常情况下,员工满意度的影响因素可以分成两大类:员工个人特质与员工所处环境。本研究
中国正处在一个经济大发展的时期,自改革开放以来,我国农村地区的社会经济取得了长足进步,农村面貌也发生了很大的变化。2005年10月11日,中国共产党第十六届中央委员会第五次
以某小区地下室顶板结构布置为例,对十字梁布置、单向双梁布置、井字梁布置三种方案进行了计算分析,并从经济性、结构合理性、配筋等方面对各方案进行了比选,得出"单向双梁为
本文是一篇以德国设计大师“冈特·兰堡招贴表现形式特征”为研究主题,以冈特·兰堡招贴设计作品为研究对象的硕士论文。全文分为四个部分:第一部分简要介绍了冈特·兰堡的生
胶东以约0.3%的国土面积占有中国约25%的黄金储量,是中国最重要的金矿集中区和黄金产区,该区经历了长期的构造—岩浆活动,形成了复杂的构造格架和一系列岩浆岩。近年来,广大
对建筑业发展与建筑经济研究进行了理性思考,论述二者之间的关系,并提出了加大舆论宣传力度、转变思想观念等促进建筑业发展的思路,对今后建筑业的发展具有积极作用。
目的探讨小儿先天性肌性斜颈的综合诊断和治疗方法。方法76例患儿用常规方法检查辅以彩超检查,诊断分类后分别给予保守及手术治疗。治疗后积极进行功能锻练。结果优56例,良18
随着我国油田生产的不断发展和油田井产出液含水量的升高,有杆泵采油过程中的腐蚀与管杆偏磨问题越来越严重,而且腐蚀和磨损的交互作用更加大了对有杆泵采油生产的危害,造成