论文部分内容阅读
在线半监督学习是二十一世纪初新兴的机器学习方法,经过近十年的发展,在模式识别、数据挖掘和信息检索等领域已经有了一些初步的应用。在线半监督学习是半监督学习与在线学习相互融合的产物,在能够利用标记和未标记样本的同时,又具有在线学习的特点。在线半监督学习算法是在一序列连续的学习周期中进行的。在每个学习周期中,学习器被给予一个训练样本,并在要求在训练样本未标记的情况下预测样本的标签。在整个学习过程中,预测器是不断被更新的,以期望可以对以后的样本进行更加准确的预测。由于在计算消耗、模型更新等方面都具有很强的优势,并符合如今“大数据时代”数据分析与学习的特点,在线半监督学习在近年来逐渐受到学者和工程人员的重视。因此,开展在线半监督学习的研究具有非常重要的理论和现实意义。现有的在线半监督学习算法虽然能够在一定程度上解决各自领域中的任务,但是大部分都是在过去已有成果的基础上在在线半监督学习问题中进行的简单扩展,既不能用于大多数情况,也无法理解相互之间的差异。本文从理论分析入手,在数学上建立在线半监督学习框架模型,从统一的角度理解在线半监督学习的本质,并用以开发新的在线半监督学习算法。在此基础上,分别展开在线流形正则化、在线协同正则化、在线半监督支持向量机和在线多重正则化的算法与应用研究。论文的主要创新点及取得的研究成果包括:(1)提出了一种基于对偶提升过程的在线半监督学习框架模型。在凸优化框架下给出了基于正则化方法的在线半监督学习问题描述和基本假设,进而利用Fenchel conjugate进行对偶变换,在对偶问题中重新分析在线半监督学习问题的特点,提出了一种基于对偶提升过程的在线半监督学习框架模型。指出在线半监督学习过程从本质上来讲可以看作是不同学习周期内对偶函数的提升过程,可以通过不断提升对偶函数的函数值来逼近原问题中最优预测器。证明了基于对偶提升过程的在线半监督学习算法过程中累计损失的上界。最后对构成在线半监督学习框架模型的要素进行了定性分析。这部分工作为在线半监督学习建立了理论基础。(2)提出了一种新的在线流形正则化算法框架。流形正则化利用了决策函数的局部平滑性指导学习过程。流形正则化问题的对偶函数可以通过一组相互独立的系数变量进行描述,因此可以仅使用部分样本来实现对偶函数函数值的提升,从而不断逼近最优预测器。基于梯度法所提出的不同在线流形正则化算法在本质上是不同的对偶提升过程。为了实用目的,还提出了两种缓冲池策略和两种稀疏化方法来减少在线流形正则化算法的时空复杂度。回顾了以往的相关研究工作,证明了现有的在线流形正则化算法也可以由在线流形正则化算法框架衍生得到。详细的实验证明了算法的有效性。另一个重要结论是在线流形正则化算法可以处理数据流中的分类面漂移的问题。(3)提出了一种新的在线协同正则化算法框架。协同正则化利用了不同视图内决策函数的一致性指导学习过程,其目标函数是多变量函数。采用hinge-loss函数和tolerance函数对基本的协同正则化问题重新进行了描述和定义,接着将Fenchel conjugate的定义由单变量函数扩展到多变量函数中去,进而得到协同正则化对偶问题并进行了分析。指出以往在线协同正则化算法实际可以看作是一种基于梯度法的对偶提升过程,并通过更加贪婪的对偶提升过程衍生出新的在线协同正则化算法。提出了两种多视图中的稀疏化方法。通过实验证明了算法的有效性,基于贪婪提升的在线协同正则化算法展现出了更低的错误率和更好的稳定性。(4)提出了一种新的在线半监督支持向量机算法框架。半监督支持向量机利用了不同类别样本之间数据分布的稀疏性指导学习过程,其目标函数是非凸函数。根据从凹凸过程(CCCP)中得到的启发,将半监督支持向量机由非凸问题转化为凸问题,进而得到一种基于对偶提升过程的在线半监督支持向量机算法框架。提出了一种平衡惩罚函数以惩罚学习过程中数据划分的不平衡性,有效限制了在线半监督支持向量机陷入局部最优的概率。基于贪婪提升和局部凹凸过程(LCCCP)提出了两种在线半监督支持向量机算法。分析了与以往工作之间的联系和区别。实验结果表明,本章算法与以往算法相比有着更低的错误率,且在算法过程中展示出了很好的稳定性。(5)提出了一种新的在线多重正则化算法框架。多重正则化是近年来半监督学习发展的一个重要方向,它使用多个正则化项对决策函数的假设空间进行约束。以基于流形正则化和协同正则化的多重正则化问题作为切入点展开在线多重正则化的研究。基于多变量Fenchel conjugate的对偶变换证明了在线多重正则化问题同样可以通过提升对偶函数的方式实现。不同的是,多重正则化对偶问题中包含了更多的系数变量可以控制其函数值的变化。基于梯度提升的在线多重正则化算法在系数变量的梯度方向上寻求对偶函数提升量,而基于贪婪提升的在线多重正则化算法通过求解一个二次规划(QP)问题来最大程度的提升每个学习周期中的对偶函数。实验证明了多正则化项在在线半监督算法中同样可以改善学习效果。