论文部分内容阅读
模糊C均值聚类算法(FCM:Fuzzy C-Means)的研究领域隶属于数据挖掘的聚类分析方向,是一种基于目标函数的无监督的聚类分析算法。它是在传统聚类分析算法的基础上引入模糊数学理论的概念,并利用隶属度函数来表示数据对象相对于类簇的所属关系。本文主要研究内容是:首先,从模糊C均值聚类算法的目标函数进行推导,推导出在聚类分析取得最优化解时隶属度函数μ( x)和聚类中心的数学表达式。然后,从模糊C均值聚类算法的相关问题入手,论述了解决问题的理论依据和具体思路,并提出的PFCM(PFCM:Optimal Fuzzy C-Means)算法。该算法的主要内容是:第一,由于FCM的初始聚类中心是随机产生,聚类的效果可能会随着初始聚类中心的选择而波动。本文根据推导出的聚类中心的表达式,采用数据分段方法,确定初始聚类中心,以减少聚类结果因初始聚类中心的随机性选择而引起的波动。第二,由于FCM算法在计算数据对象各维特征的距离时某些维度特征的量纲或者偏离度可能差异巨大,进而有可能掩盖其它维度的特征作用。本文运用层次分析法,从数据对象纵向上构造了一个成对比较矩阵,以各维特征的方差为基准,计算各维特征的权重来平衡它们的作用。第三,由于FCM算法是一种迭代爬山的搜索算法,它在处理高维数据时效率比较低。本文利用多项式拟合的方法,从数据对象横向上建立非线性映射,将原数据对象映射到一元多次函数的系数上,使用一元多次函数的系数来代替原数据对象的各维数据,以降低原数据对象的维度,进而增强FCM算法处理高维数据的能力。第四,由于FCM算法在迭代过程时使用距离更新聚类中心,当奇异点的范数过大时,可能会极大地减少其他数据对象的作用。本文在每次算法迭代过程时,检测各个类簇中潜在的奇异点,然后根据方差分析假设检验的方法,判断它是否是真正的奇异点。如果接受假设,则不将该奇异点加入到调整聚类中心的集合中,反之,则加入,以此来减少奇异点对聚类结果的影响。最后,本文通过实验比较了PFCM算法与FCM算法,并将PFCM算法应用于模式识别中。实验结果和应用实例表明:PFCM算法在一定程度上优化了FCM算法,提高了FCM算法的性能和效率。