论文部分内容阅读
随着计算能力和网络技术的进展,人类积累的数据量急剧增长。如何自动地、智能地从数据中获取其隐含的规律和知识,从而进行决策和控制是人们需要解决的迫在眉捷的问题。机器学习是进行知识发现的常用方法,但传统的机器学习方法都是在样本数目足够多的前提下提出的,其性能只有在样本数趋于无穷大时才有理论上的保证。而在多数实际应用中,样本数目通常是有限的,这时很多方法都难以取得理想的效果。 统计学习理论是一种专门的小样本统计理论,它为系统地研究小样本情况下机器学习问题提供了一个较好的的理论框架。支持向量机是在统计学习理论体系下产生的一种新的机器学习方法,它较好地解决了以往困扰很多学习方法的小样本、非线性、过学习、高维数、局部极小点等问题,具有很强的泛化能力。目前,统计学习理论和支持向量机受到越来越广泛的重视,并成为国际上机器学习领域新的研究热点。 支持向量机毕竟还是一种崭新的技术,无论在理论上还是实际应用中,都还存在着许多亟待解决的问题。支持向量机在解决模式分类问题时存在容噪性能差、参数选择困难、不能提供后验概率输出等缺陷,对这些问题进行系统研究并提出相应的解决方案对于提高支持向量机在模式分类领域的应用性能具有重要意义。此外,支持向量机所具有的优良特性是一些传统学习方法比如模糊神经网络所需要的,所以借鉴支持向量机的一些优点,改进模糊神经网络的设计过程,对于提高模糊神经网络的性能和研究支持向量机与传统学习方法之间的联系也具有重要意义。 本文针对以上提到的问题,进行了如下一些深入的研究。 支持向量机的分类性能受噪声影响较大。此外如果待分类问题中存在较多冗余或不相关属性时,不利于支持向量机性能的提高。针对这两个缺陷,结合核主成分分析的去噪能力和粗糙集的属性约简能力,提出了一种支持向量机的去噪和特征选择预处理方法。该方法通过对训练样本集进行降噪和属性约简预处理,能够在增强支持向量机的容噪能力和提高支持向量机的分类性能的同时降低支持向量机的计算负担。 参数选择是影响支持向量机分类性能的重要因素。以往的参数选择方法大都是直接对整个参数空间进行穷举搜索,算法效率低有时甚至不可行。在详细分析现有的支持向量机参数选择方法的基础上,提出一种基于混合遗传算法的支持向量机参数选择方法。结合遗传算法的全局寻优能力和梯度法的局部寻优能力,本方法能够选择到更好的支持向量机参数。 一个具有后验概率输出的分类器在实际应用中是非常重要的。但是支持向量机只能输出确定的类别标号,不能直接输出类后验概率。本文在两类别支持向量机概率输出模型研究的基础上,结合 Hastie和Tibshiranit的逐对耦合(Pairwise Coupling)思想提出了多类别支持向量机的后验概率输出模型,并据此提出一种基于具有后验概率的支持向量机多类别分类方法。由于多分类器集成能够显著提高分类性能,所以受到了广泛的重视。但是目前对多支持向量机分类器集成方面研究相对较少。本文在具有类概率输出的支持向量机模型的基础上详细研究了支持向量机分类器集成的理论基础、个体支持向量机的生成方法和集成策略。 基于经验风险最小化原则设计出来的模糊神经网络无法保证其具有良好的泛化能力。结合支持向量机和模糊神经网络的特点,提出一种基于支持向量机的模糊神经网络设计新方法。该方法将支持向量机算法中同时兼顾训练误差和模型复杂度的思想引入到模糊神经网络的设计过程中,从而能够提高模糊神经网络的泛化能力。