论文部分内容阅读
Vapnik统计学习理论着重研究小样本的统计规律及-9习方法,它能避免传统的统计模式识别方法只有在样本数趋于无穷大时性能才有理论保证的缺点。支撑向量机(SVM)是在统计学习理论的基础上发展起来的一种新型的机器学习方法,在解决小样本、非线性及高维模式识别问题中表现出特有的优势,是当前机器学习领域的新热点。
从本质上讲,以统计学习理论作为理论基础的支撑向量机学习方法主要以小样本问题作为研究对象。但随着研究的深入与应用的推广,SVM在解决大规模样本问题上的缺陷日益凸显。为了能让SVM得到更广泛的应用,人们开始努力研究各种方法去突破SVM在大规模问题上的瓶颈,分解训练算法就是其中一个主要的研究方向。分解训练算法的确能够加快SVM训练速度,但我们认为当样本规模很大时,其训练速度仍然是不够的。
本文的研究紧紧抓住大规模样本问题中“训练样本数巨大”这一难点,试图在训练开始之前就大大减少参与训练的样本数目,使得能够应用一般的分解算法进行学习,速度大大提高,同时通过采取迭代调整策略来保证学习机的分类性能。
本文从样本抽取、迭代训练两个方面着手,对大规模样本模式识别问题的有效训练算法进行了探计,提出了一种基于样本选择策略的SVC迭代训练算法。该算法在有限资源下能够快速地构造性能优越的分类器,是目前SVM研究领域中较少涉及的一个方向。算法的主要思想是:首先分别对两类样本进行随机分组,并在每个分组中运用基于FCM聚类的样本选择策略从原训练集中选取部分有代表性的样本组成工作集,然后利用该小规模工作集进行标准SVM训练;为了保证学习机的性能,通过迭代训练对所得到的粗糙的分类器进行调整,主要策略是根据样本与当前最优超平面的距离,从原训练集中重新选择一部分有利于改进目标函数值的样本作为新工作集,重新执行SVM训练。交错进行样本抽取以及SVM训练两个过程,可以不断改进所得到的学习机,直到满足迭代终止条件为止。我们依次分析了算法的样本选择策略、迭代思想以及收敛条件,给出了算法的具体流程,并在十个大规模UCI标准测试集上进行了实验,结果表明我们提出的迭代训练算法收敛快,在保证学习精度的同时使训练速度加倍、支撑向量减少一半。