论文部分内容阅读
统计学习理论具有强大的理论基础,支持向量机(Support Vector Machine,简称SVM)作为一种常用的学习方法又是建立在结构风险最小化原理(Structural Risk Minimization,SRM)和VC维理论基础上的。支持向量机在解决一些小样本等实际问题时,具有很强的泛化能力,并且有效地克服了传统机器学习中存在局部最小和维数灾难等问题的出现。支持向量机能够根据模型的学习能力和模型的复杂性衡量取舍,找到最合适的分类器,获得最优的推广能力(Generalization Ability)。支持向量机作为一种尚未成熟的新技术,还存在不足和局限,通过改进和完善,可以增强它的适用性,其中有几个问题亟待解决:第一,支持向量机刚开始只是应用于二分类问题,如何应用于多类分类问题成为一项研究热点。目前,多类分类器的构造主要包括直接构造和间接构造两种方法,间接构造法需要构造多个二类分类器,而直接构造法只需构造一个分类器,但分类精度较低。怎样提高分类精度,更好的服务于多类分类问题也是需要研究的热点问题之一。第二,SVM对孤立点和噪声数据的影响是非常敏感的,各类别样本数目可能不均衡。如何克服噪声对训练过程的影响,还有各类样本数目不均衡时所造成的不利影响,这些问题都还需要研究改善和提高。第三,核函数的选择与参数设置的优化一直也是研究的热点问题。在小样本研究中,由于先验信息的不足,往往导致搜索区间过大,再加上需要优化的参数不只一个,训练过程就需要消耗更多的时间。本文以支持向量机理论为基础,结合模糊理论进行研究。针对支持向量机中不能把每个样本所起作用的重要程度体现出来,将模糊理论引入支持向量机,在已有研究的基础上,提出了一种基于去边缘数据的模糊支持向量机,取得了较好的分类效果。同时将该算法运用到人为数据和UCI数据中,和标准支持向量机算法做对比实验。