论文部分内容阅读
分类问题是数据挖掘领域的重要研究分支之一,分类任务中的分类模型都基于“独立同分步”这一前提假设,即用于训练分类器的数据集与待分数据都是由同一分布独立生成的。但是在一些问题中,数据会随着时间的推移它们会发生变化,导致独立同分布的前提不能满足,已有的分类器不能正确地反映数据的分布情况,需要对分类器模型进行更新。更新分类器最直观的做法是用所有的训练数据重新训练分类器模型,但在一些实际应用特别是在线分类的应用中,数据量往往是十分巨大的,这样的调整方法时间开销和空间开销过高,甚至是不可能完成的任务,因而需要找到一种快速、高效的分类器调整方法。
由Vapnik等人提出的统计学习理论是一种专门研究小样本情况下机器学习规律的理论,它为解决有限样本学习问题提供了一个统一的框架。支持向量机和支持向量数据描述是基于统计学习理论的分类方法,与传统分类方法相比,它们具有一定的优越性。
本文正是基于以上背景展开研究。针对出现新增训练样本的情况,本文提出了支持向量数据描述的样本增量学习方法,该方法用已经训练好的SVDD模型的支持向量作为历史数据的代表与新增数据组成训练数据集进行SVDD分类模型的训练。同时,对于大数据量的问题,使用该方法可以提高SVDD能够处理的数据规模。
对于训练样本属性值变化时分类器的更新问题,本文针对支持向量机和支持向量数据描述两种分类器模型分别提出了FU-SVM算法和FU-SVDD算法,这两种方法的核心思想是使用对类别边界情况产生影响的变化样本以及未发生变化的支持向量作为训练数据集重新训练分类器。
本文提出的三种更新方法得到的是近似结果,但从在UCI标准数据集上的实验结果可以看到,这些方法与标准训练方法的分类性能非常相近;但在时间开销和空间开销上远远低于标准方法。这对于需要在线更新的分类器来说是十分重要的。