论文部分内容阅读
近几十年来,随着科学技术的发展经济和社会都取得了极大的进步,同时在各个领域也产生了海量的数据。1989年举行的第十一届国际联合人工智能学术会议上知识发现(Knowledge Discovery in Databases,KDD)被首次提出来。之后,这一学科受到来自各个领域的研究者关注并产生了学科交叉,数据挖掘(Data Mining)也由此产生。目前数据挖掘主要研究的是关联规则、分类、聚类、预测、Web挖掘等。其中聚类(Clustering Analysis)是指根据某种规则将数据对象划分为几个类簇,使在同一个类簇中的对象之间相似性最高,而在不同类簇的对象相似性最低。聚类过程是将没有训练样本的数据集划分为有意义的不同类,属于无监督学习。目前的聚类算法有许多种,根据聚类算法的聚类法则大致可以将聚类算法分为五个类别。每种聚类算法都有一定的适用范围并在某些特定的数据集上有较好的表现,但是目前不存在一种聚类算法可以对各种结构的数据集进行聚类。总体来说聚类算法存在着以下几种研究难题:如可扩展性不强,一些聚类算法适合在小数据集上工作,但不适合在大数据集工作;需要先验知识去决定输入参数,例如k-means算法需要输入类别数k;无法辨别任意形状聚类;缺乏适合于类属性数据的聚类有效性研究。集成学习(Ensemble Learning)是利用多个基学习器来解决同一个问题,可以显著地提高学习系统的泛化能力。在此基础上,2002年Strehl等提出了聚类集成(Cluster Ensemble)并给出了定义。聚类集成是利用多个基聚类结果进行集成得到一个新的划分,这个划分最大程度上分享了所有的输入基聚类结果。目前聚类集成的算法有许多种,但根据集成的方法可以大致划分为三类。聚类集成有较好的泛化能力,能够挖掘出数据集的潜在结构。从聚类的结果来看,聚类可分为两大类:软聚类和硬聚类。软聚类是将样本个体通过隶属度标识出与各个类簇的隶属关系。硬聚类是将样本个体划分为某一特定的类簇,与其它的类簇并没有关系。从数学模型的角度来看,软聚类是以模糊数学为基础的。本文首先对聚类算法进行了研究,进一步研究了软聚类与硬聚类方法的结合,提出一种软硬结合的聚类算法,该算法首先使用模糊数学的模糊相似矩阵来划分出模糊样本个体和一般样本个体。之后在实验中将这种软硬结合的聚类算法和硬聚类K-means算法、软聚类FCM算法进行比较,最后实验结果表明了在人工数据集和UCI数据集上这种软硬结合的聚类算法优于单纯的硬聚类K-means算法和软聚类FCM算法。在聚类集成中,本文提出了基于相似性选择的聚类集成算法,在该算法中提出了两种新的聚类成员相似性度量方法,之后分别使用这两种相似性度量方法来建立基聚类结果的模糊相似矩阵对基聚类结果进行选择,最后对选择出的基聚类结果进行集成得出模糊样本个体和一般样本个体的聚类划分,并且用实验验证了在UCI数据集上这两种相似性度量方法能够选择出较好的基聚类结果,其集成的效果也优于没进行聚类成员选择的集成算法。