论文部分内容阅读
单类问题是一种无监督的学习问题.它主要用于outlier检测,奇异点检测等问题.目前,基于统计学习理论的算法,如SVM和boosting,在处理有监督的学习问题上卓有成效.显然,能否设计统计学习算法解决单类问题是人们非常关心的问题.
1999年,Tax等人提出了 SVDD(Support Vector Data Description)方法求解单类问题,其思路是寻求一个能把所有训练样本包围起来的最小超球,以此最小超球作为单类问题的分类器.2001年,Scholkopf等人将单类问题认为是一种特殊的二分类问题,提出了一种称为v-SVM的算法.有趣的是,他们的算法与Tax的最小球覆盖算法相吻合.于是Tax等人基于Scholkopf提出的支持向量机理论,将支持向量扩展到单类问题,建立了支持向量数据描述,从而得到了基于支持向量的单类问题.然而,在Vapnik研究的统计学习理论中算法和相应的理论分析都是基于两类问题的,如何有效地推广二分类学习算法到单类情形就具有重要的理论和实际意义,因此正成为机器学习的研究热点之一.
在本文中,首先介绍单类问题的研究背景;基于单类问题是一种特殊的二分类问题,然而二分类问题是分类问题中最基本的分类问题.于是在第二部分介绍二分类问题,阐述单类问题和二分类问题的联系与区别,再针对机器学习中的二分类问题进行研究,具体到支持向量机中核函数的选取,并用两个模拟实验表明这种核函数能得到更好的性能;第三部分简单的介绍了Tax的SVDD方法;在第四部分,基于统计学习理论的算法,考虑将统计学习算法用于解决单类问题.SMO算法作为统计学习算法的一种,无论在理论推导上,还是在实际应用中都表现出良好的性能,它能完全避免二次规划数值解法的复杂迭代过程.这不仅大大的节省了计算时间,且不会牵涉到迭代法造成的误差积累.于是将SMO算法用于单类问题,在理论上证明该算法能得到最优解.最后对本文的结果进行分析和展望.