论文部分内容阅读
支持向量机作为机器学习的研究方法之一,已得到了深入研究和广泛应用,由于基于单核函数的支持向量机已不适应于复杂的大规模数据处理,因此多核支持向量机成为研究热点。本文介绍了多核支持向量机的原理,以及多核支持向量机的研究成果,并在加权多核支持向量机聚类的基础上,先针对特征的来源选取合适的核函数,再针对不同的特征来源对各个核函数进行线性拟合,提出了基于模糊聚类的多核支持向量机算法。实验结果分析表明,基于模糊聚类的简化多核支持向量机能显著提高多核支持向量机的学习效率,尤其是在大规模训练数据集上效果尤为明显。模糊C均值聚类算法(FCM)是数据聚类分析的主要流行算法之一,为了解决传统的FCM算法对于非欧式结构的数据聚类结果不理想的问题,已经有多种解决方案。本文首先依据特征来源选取核函数,对应特征集形成了核函数集。为了更好的进行聚类,针对核函数集的权重,采取自适应的特征加权FCM算法确定之。在目标函数中引入核函数集,形成了一种新的基于核函数的模糊C均值聚类算法(KFCM),其通过借助核函数重新构造新的目标函数,进而获取更好的聚类效果。心电图(ECG)是诊断心脏疾病、评价心脏功能的主要依据之一。本文采用KFCM算法,对ECG信号进行分析。本文中的心电图数据均采集于MIT-BIH心律失常标准数据库,且对原始的心电数据进行校准基线漂移和去除高频噪声的预处理。一般的心电图数据都是高维数据,其中包含许多的冗余信息,不利于数据的聚类。为了提高聚类效果:一方面,通过相关性分析的方法进行数据预处理;另一方面,通过提取原始心电图数据的特征值对数据做降维处理。流行学习是数据非线性降维的主要方法之一,本文尝试采用了流行学习中的局部线性嵌入算法(LLE)对进过预处理的心电数据进行了降维。为了比较降维效果,同时也用经典的主成分分析法(PCA)对数据进行了降维,然后对二种方法降维后的心电数据分别用FCM算法和新的KFCM算法进行了聚类,并对聚类效果和计算量做了比较和分析。从实验结果来看,LLE算法对心电数据的特征提取并没有PCA算法效果好,且KFCM算法受核函数及其参数选择的影响,聚类效果也没有FCM算法稳定和优异,但KFCM的计算量比FCM要小很多,能够更快的得到聚类结果,其结果较好。