论文部分内容阅读
目前,数据的特征多种多样,对数据进行充分挖掘成为许多研究的重点,数据的特征有时会影响数据本身的性质,如医学数据中,许多特征都是息息相关,但有些特征没有联系,将所有特征放在一起进行研究,会丢失数据间的信息,甚至做出错误的判断。因此,对特征进行数据分组,对不同的特征组给予不同的距离度量,可以利用数据间的隐藏信息,进而提高分类器的准确率。本文的工作主要包括以下两个方面:(1)传统的数据分析方法在挖掘许多数据信息时,可用的信息没有得到充分利用。本文针对这一问题,提出一种基于改进模糊聚类的Takagi-Sugeno(T-S)模糊系统,将系数调节与指数调节与经典模糊C均值聚类(Fuzzy C-means,FCM)算法结合,替换经典T-S模糊系统中的逻辑元件,合理利用T-S模糊系统在预测与回归等方面的优势的同时,通过指数或系数的灵活调控,深度挖掘可以被特征分组的数据中不同属性间的关联信息,进而提高算法在特征具有可分组性的数据分析预测中的准确性。为具体评估算法有效性,我们在可以特征分组的真实数据集上进行实验,实验结果表明,本文提出的算法具有更高的预测精度及可行性。(2)在经典的模糊c均值聚类方法的基础上,提出了一种新的分类器设计方法。首先,提出了一种基于距离组合数据的交替聚类方法。该方法可以看作是条件模糊聚类概念的一种推广,它具有一些已知的先验原型,同时也能处理可以被特征分组的数据。首先介绍了一种特殊的聚类中心初始化方法,然后利用所提出的聚类方法构造基于IF-THEN规则的Takagi-Sugeno模糊系统的逻辑前件,再利用梯度下降法使所提出的误差函数最小化。在聚类过程中通过调节影响因子来充分挖掘数据间的信息,使聚类效果更好,从而提高分类器的准确度。最后,对可以特征分组的真实数据集进行了大量实验分析,验证了该分类器的有效性,实验结果表明,改进后的算法具有更高的精度与可行性。