模糊聚类集成算法及融合差异度分析研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:ouyang0078
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘(Data Mining)就是从海量的数据中,提取隐含在其中的人们事先不知道的、但又是潜在有用的信息和知识的过程。而作为数据挖掘技术之一的聚类分析,无论是在数据分析、模式识别,还是在市场分析和图像处理方面都有着广泛的应用,所以越来越受到研究者的关注。聚类分析就是在没有任何可供学习的样本情况下,将对象集进行自动分组,使类间相似性尽量小,类内相似性尽量大的一种分析方法。传统的聚类分析是一种硬划分,它把每个待聚类的样本严格地划分到某个类中,具有非此及彼的性质,也就是说样本只能属于所有类别中的某一类别。而实际上大多数样本在类属和形态方面存在着模糊性,即属性并没有严格地限制,适合进行软划分。模糊理论的提出为这种软划分提供了有力的分析工具,人们开始用模糊的方法来处理聚类问题,并称之为模糊聚类分析,它是聚类分析与模糊理论相结合的产物。模糊聚类能得到样本属于各个类别的不确定性程度,表达了样本类属的模糊性,从而能更客观地反映现实世界。作为当前聚类分析的新兴研究热点,聚类集成是将不同算法或者同一算法使用不同参数得到的结果进行合并,从而改善聚类性能。当前大多数聚类集成方法都将硬聚类算法作为基本的聚类算法,而将模糊聚类用在集成方面的研究甚少。针对这种情况,本文紧紧围绕模糊聚类这一课题,旨在分析研究如何改进经典的模糊聚类算法以及应用模糊聚类的特性来提高分类器集成的性能,此外还考虑多个聚类成员的差异性,利用模糊聚类集成来获得比硬聚类更为丰富的信息,来改善聚类质量。本文的创新性研究成果主要有:1、提出了一种改进的模糊C-均值聚类算法(SWFCM)。该算法是针对模糊C-均值(FCM)聚类算法对噪声和孤立点数据敏感、样本分布不均衡的问题所提出的。改进隶属度函数,以消除孤立点对聚类结果的影响;为每个样本点赋予一个定量的权值,以区分不同的样本点对于知识发现的不同作用,改善噪音和分布不均衡的样本集的聚类结果。实验结果表明该算法具有更好的健壮性和聚类效果。2、提出了一种基于模糊聚类思想的两级集成分类器算法(EWFuzzyBagging)。该算法首先将数据集用Fuzzy C-Means算法进行聚类,得到每个实例对应于每个类别的模糊隶属度。一级集成根据Bagging算法获得成员分类器,分类器个数为数据集类别数且每个成员分类器对应一个类别标号,这些成员分类器的采样方式为通过其对应类别的模糊隶属度为每个实例加权后进行随机重采样。二级集成是将一级集成产生的针对类别的成员分类器通过动态加权多数投票法来组合,学习到最终的分类结果。实验结果表明该算法与Bagging和AdaBoost相比具有更好的健壮性。3、提出了一种基于互信息的模糊聚类集成算法(Mi-WFCE)。该算法首先利用模糊C-均值聚类算法(Fuzzy C-Means)通过每次随机选取初始聚类中心的方式来获得相互具有差异性的聚类成员,并将这些聚类成员通过基于投票机制的集成算法进行粗融合,获得一个粗融合聚类结果;然后将聚类成员与粗融合结果进行比对,通过互信息值来确定聚类成员的稳定性,根据其稳定性来设置聚类成员的权值;最终将加权后的聚类成员通过基于投票策略的集成算法产生最终的聚类集成结果。实验结果表明,新的算法能考虑聚类成员间稳定性的不同,从而明显改善聚类质量,得到较好的聚类集成结果。
其他文献
随着Internet的迅速发展和应用,WEB应用已经渗透到国计民生的各个领域。相比一般传统软件,WEB应用具有更高的质量需求。WEB应用本身的高复杂性使的对其验证、测试都相当困难,基
随着计算机软硬件系统日益复杂,如何保证其正确性和可靠性成为日益紧迫的问题。确保这些系统的可靠性成为计算机科学领域中重要研究领域。为此提出的诸多方法和理论中,模型检
随着产品开发全球化的快速发展,异构CAD系统协同开发对于跨地域产品设计而言具有重要的意义,因为它使得分布在不同地点、属于不同企业或部门的开发设计人员能够采用各自擅长
近年来,随着Internet的日益成熟与普及,以计算机多媒体、网络等先进技术为基础的现代网络学习方式以其开放性、灵活性、多样化和个性化等特征,在教育领域得到了越来越广泛的应用
随着科学技术的发展和科学研究的需要,延迟容忍网络(DelayTolerant Network)开始出现。延迟容忍网络不满足Internet体系结构的一些基本假设,它呈现出高链路延迟,高链路差错率
本文在总结前人研究成果的基础上,将先进的嵌入式技术、视频技术、网络技术有效地结合在一起,提出了一种基于S3C2410X处理器与PC机之间视频信息的传送控制的设计方案。该方案
随着社会的进步,人们对于信息自动化处理的需求越来越多,相关的软件系统的设计及实现也日益复杂,因此需要对于系统的架构进行详细的分析,在可能的时间内及代价允许的情况下,
交通运输业的兴衰是市场经济发达程度的重要标志。交通运输对经济发展起着推动作用,是国民经济发展的大动脉。随着经济全球化进程的不断加快,区域一体化逐渐成为实现地区协调
鲁棒模型拟合是计算机视觉领域的一项重要研究任务,它已被广泛地应用于运动分割、图像拼接、三维重建、图像配准等领域。由于输入数据不可避免地会包含噪声、离群点(即错误的数
本论文详细介绍了工作流技术,研究了工作流管理系统的参考模型。将工作流技术系统地引入到电子党务管理系统,实现流程、党务和管理职责、管理岗位的标准化,明确党务的工作流