论文部分内容阅读
支持向量机是一种建立在统计学习理论基础上,以结构风险最小化为原则的机器学习方法,由于具有良好的泛化能力,能很好地解决高维、小样本、非线性等问题,具有广泛的应用。支持向量机的实现过程实际上是求解一个凸优化问题,数据的高维性导致时间效率的降低,另外凭经验选择核函数及相关参数,不能保证参数的最优性,这些缺点降低了支持向量机的稳定性和泛化能力。 集成学习是提高分类器泛化能力的有效途径,通过训练并组合多个准确而有差异的基分类器,最终实现比单个分类器性能更佳的集成分类。大量理论分析与实验表明,选择性集成根据某种策略从基分类器中挑选部分性能较佳的进行集成,能进一步提高集成分类精度以及机器的泛化性能。群体智能优化算法是选择基分类器的有效方法之一,差分进化算法是一种比遗传算法、粒子群算法原理简单、控制参数少,且搜索速度更快的智能算法。鉴于支持向量机的优势及不足,本文提出了基于差分进化算法的支持向量机集成方法:针对高维数据特点,首先采用Relief算法进行属性约简,然后基于Adaboost方法训练多个基分类器,最后采用差分进化算法进行基分类器的选择,并最终实现基分类器的加权集成。 在声纳信号(Connectionist Bench),弥漫性大B细胞淋巴瘤生物医学(DLBCL),混合系白血病基因诊断(MLL Leukemia)3个高维、小样本的数据集上进行了仿真实验,试验结果表明本文算法的分类精度要比 Adaboost以及单一 SVM都好,说明该集成方法能进一步提高分类精度,是一种有效的、可行的集成分类方法,且具有较高的泛化性能和鲁棒性。