论文部分内容阅读
数据挖掘(Data Mining)就是从海量的数据中,提取隐含在其中的人们事先不知道的、但又是潜在有用的信息和知识的过程。而作为数据挖掘技术之一的聚类分析,无论是在数据分析、模式识别,还是在市场分析和图像处理方面都有着广泛的应用,所以越来越受到研究者的关注。聚类分析就是在没有任何可供学习的样本情况下,将对象集进行自动分组,使类间相似性尽量小,类内相似性尽量大的一种分析方法。传统的聚类分析是一种硬划分,它把每个待聚类的样本严格地划分到某个类中,具有非此及彼的性质,也就是说样本只能属于所有类别中的某一类别。而实际上大多数样本在类属和形态方面存在着模糊性,即属性并没有严格地限制,适合进行软划分。模糊理论的提出为这种软划分提供了有力的分析工具,人们开始用模糊的方法来处理聚类问题,并称之为模糊聚类分析,它是聚类分析与模糊理论相结合的产物。模糊聚类能得到样本属于各个类别的不确定性程度,表达了样本类属的模糊性,从而能更客观地反映现实世界。作为当前聚类分析的新兴研究热点,聚类集成是将不同算法或者同一算法使用不同参数得到的结果进行合并,从而改善聚类性能。当前大多数聚类集成方法都将硬聚类算法作为基本的聚类算法,而将模糊聚类用在集成方面的研究甚少。针对这种情况,本文紧紧围绕模糊聚类这一课题,旨在分析研究如何改进经典的模糊聚类算法以及应用模糊聚类的特性来提高分类器集成的性能,此外还考虑多个聚类成员的差异性,利用模糊聚类集成来获得比硬聚类更为丰富的信息,来改善聚类质量。本文的创新性研究成果主要有:1、提出了一种改进的模糊C-均值聚类算法(SWFCM)。该算法是针对模糊C-均值(FCM)聚类算法对噪声和孤立点数据敏感、样本分布不均衡的问题所提出的。改进隶属度函数,以消除孤立点对聚类结果的影响;为每个样本点赋予一个定量的权值,以区分不同的样本点对于知识发现的不同作用,改善噪音和分布不均衡的样本集的聚类结果。实验结果表明该算法具有更好的健壮性和聚类效果。2、提出了一种基于模糊聚类思想的两级集成分类器算法(EWFuzzyBagging)。该算法首先将数据集用Fuzzy C-Means算法进行聚类,得到每个实例对应于每个类别的模糊隶属度。一级集成根据Bagging算法获得成员分类器,分类器个数为数据集类别数且每个成员分类器对应一个类别标号,这些成员分类器的采样方式为通过其对应类别的模糊隶属度为每个实例加权后进行随机重采样。二级集成是将一级集成产生的针对类别的成员分类器通过动态加权多数投票法来组合,学习到最终的分类结果。实验结果表明该算法与Bagging和AdaBoost相比具有更好的健壮性。3、提出了一种基于互信息的模糊聚类集成算法(Mi-WFCE)。该算法首先利用模糊C-均值聚类算法(Fuzzy C-Means)通过每次随机选取初始聚类中心的方式来获得相互具有差异性的聚类成员,并将这些聚类成员通过基于投票机制的集成算法进行粗融合,获得一个粗融合聚类结果;然后将聚类成员与粗融合结果进行比对,通过互信息值来确定聚类成员的稳定性,根据其稳定性来设置聚类成员的权值;最终将加权后的聚类成员通过基于投票策略的集成算法产生最终的聚类集成结果。实验结果表明,新的算法能考虑聚类成员间稳定性的不同,从而明显改善聚类质量,得到较好的聚类集成结果。