论文部分内容阅读
作为上世纪九十年代兴起的一种新的机器学习技术,支持向量机(Support Vector Machine,SVM)在许多领域都取得了成功的应用。但它的应用其实大多局限于常见的标准化或者说“理想化”的数据分布情况,对于在实际应用中不得不面对的一些数据分布不合常规或者说不“理想”的机器学习问题,比如:不确定性输入信息学习、不平衡数据集分类、半监督型数据学习等,传统型支持向量机的学习性能则表现得不尽人意,有时甚至根本达不到人们所期望的学习效果,这在很大程度上影响了支持向量机向更大范围的推广和应用。针对这些问题,本文就几种非理想状态下的支持向量机学习算法进行了研究和探讨,给出了较理想的解决方案。
在简单回顾标准支持向量机及其数学基础之后,本文重点研究了三类非理想状态问题的支持向量机学习算法。
针对某些训练样本存在输入信息不确定的问题,通过引入灰色理论中区间数及区间运算的概念,结合支持向量机的特性,提出了解决不确定信息的灰信息支持向量机分类及回归算法。该类算法用区间数来表示不确定的输入信息,利用区间运算来替代原来学习函数中的运算,并根据区间运算结果来对信息不确定的输入模式进行学习。同时借鉴灰色理论中区间距离的思想,文中还提出了解决单值分类问题的的灰信息支持向量域分类算法(gray supportvector domain description,GSVDD)。
针对不同类别样本在数量分布上存在差异的不平衡数据问题,本文研究了不平衡状态下实际分类面和数据不平衡度的关系,通过采用一种新的上抽样技术(over-sampling)---SMOTE来纠正实际分类面形状偏离理想分类面的现象;同时还对传统支持向量机的惩罚函数进行了调整,引入了差异性惩罚的思想来纠正传统算法中的分类面偏移现象。
在SVM的实际应用中由于样本采集的困难以及采样成本的代价过高,在给定的数据集中往往存在部分没有被标识的样本,这类问题称之为半监督型学习(semi-supervised learning)问题。本文针对Joachims.T提出的解决半监督型学习问题的直推式支持向量机学习算法(Transductive Support VectorMachine,TSVM)存在的诸如训练速度慢、泛化能力弱等一些缺点,提出一种改进的直推式支持向量机分类学习算法。该算法通过采用个体样本标号判断和交换准则取代TSVM算法中的成对样本标标号交换法,能正确确定无标识样本中的正标识样本数,克服了传统TSVM算法存在的缺点,增强了TSVM算法学习算法的推广能力。作者还对论文中提出的几种非理想状态支持向量机学习算法进行了实验验证,结果表明这些算法在非理想状态下学习问题中均取得了较好的学习性能。