在线半监督学习理论、算法与应用研究

被引量 : 0次 | 上传用户:ares_ding
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在线半监督学习是二十一世纪初新兴的机器学习方法,经过近十年的发展,在模式识别、数据挖掘和信息检索等领域已经有了一些初步的应用。在线半监督学习是半监督学习与在线学习相互融合的产物,在能够利用标记和未标记样本的同时,又具有在线学习的特点。在线半监督学习算法是在一序列连续的学习周期中进行的。在每个学习周期中,学习器被给予一个训练样本,并在要求在训练样本未标记的情况下预测样本的标签。在整个学习过程中,预测器是不断被更新的,以期望可以对以后的样本进行更加准确的预测。由于在计算消耗、模型更新等方面都具有很强的优势,并符合如今“大数据时代”数据分析与学习的特点,在线半监督学习在近年来逐渐受到学者和工程人员的重视。因此,开展在线半监督学习的研究具有非常重要的理论和现实意义。现有的在线半监督学习算法虽然能够在一定程度上解决各自领域中的任务,但是大部分都是在过去已有成果的基础上在在线半监督学习问题中进行的简单扩展,既不能用于大多数情况,也无法理解相互之间的差异。本文从理论分析入手,在数学上建立在线半监督学习框架模型,从统一的角度理解在线半监督学习的本质,并用以开发新的在线半监督学习算法。在此基础上,分别展开在线流形正则化、在线协同正则化、在线半监督支持向量机和在线多重正则化的算法与应用研究。论文的主要创新点及取得的研究成果包括:(1)提出了一种基于对偶提升过程的在线半监督学习框架模型。在凸优化框架下给出了基于正则化方法的在线半监督学习问题描述和基本假设,进而利用Fenchel conjugate进行对偶变换,在对偶问题中重新分析在线半监督学习问题的特点,提出了一种基于对偶提升过程的在线半监督学习框架模型。指出在线半监督学习过程从本质上来讲可以看作是不同学习周期内对偶函数的提升过程,可以通过不断提升对偶函数的函数值来逼近原问题中最优预测器。证明了基于对偶提升过程的在线半监督学习算法过程中累计损失的上界。最后对构成在线半监督学习框架模型的要素进行了定性分析。这部分工作为在线半监督学习建立了理论基础。(2)提出了一种新的在线流形正则化算法框架。流形正则化利用了决策函数的局部平滑性指导学习过程。流形正则化问题的对偶函数可以通过一组相互独立的系数变量进行描述,因此可以仅使用部分样本来实现对偶函数函数值的提升,从而不断逼近最优预测器。基于梯度法所提出的不同在线流形正则化算法在本质上是不同的对偶提升过程。为了实用目的,还提出了两种缓冲池策略和两种稀疏化方法来减少在线流形正则化算法的时空复杂度。回顾了以往的相关研究工作,证明了现有的在线流形正则化算法也可以由在线流形正则化算法框架衍生得到。详细的实验证明了算法的有效性。另一个重要结论是在线流形正则化算法可以处理数据流中的分类面漂移的问题。(3)提出了一种新的在线协同正则化算法框架。协同正则化利用了不同视图内决策函数的一致性指导学习过程,其目标函数是多变量函数。采用hinge-loss函数和tolerance函数对基本的协同正则化问题重新进行了描述和定义,接着将Fenchel conjugate的定义由单变量函数扩展到多变量函数中去,进而得到协同正则化对偶问题并进行了分析。指出以往在线协同正则化算法实际可以看作是一种基于梯度法的对偶提升过程,并通过更加贪婪的对偶提升过程衍生出新的在线协同正则化算法。提出了两种多视图中的稀疏化方法。通过实验证明了算法的有效性,基于贪婪提升的在线协同正则化算法展现出了更低的错误率和更好的稳定性。(4)提出了一种新的在线半监督支持向量机算法框架。半监督支持向量机利用了不同类别样本之间数据分布的稀疏性指导学习过程,其目标函数是非凸函数。根据从凹凸过程(CCCP)中得到的启发,将半监督支持向量机由非凸问题转化为凸问题,进而得到一种基于对偶提升过程的在线半监督支持向量机算法框架。提出了一种平衡惩罚函数以惩罚学习过程中数据划分的不平衡性,有效限制了在线半监督支持向量机陷入局部最优的概率。基于贪婪提升和局部凹凸过程(LCCCP)提出了两种在线半监督支持向量机算法。分析了与以往工作之间的联系和区别。实验结果表明,本章算法与以往算法相比有着更低的错误率,且在算法过程中展示出了很好的稳定性。(5)提出了一种新的在线多重正则化算法框架。多重正则化是近年来半监督学习发展的一个重要方向,它使用多个正则化项对决策函数的假设空间进行约束。以基于流形正则化和协同正则化的多重正则化问题作为切入点展开在线多重正则化的研究。基于多变量Fenchel conjugate的对偶变换证明了在线多重正则化问题同样可以通过提升对偶函数的方式实现。不同的是,多重正则化对偶问题中包含了更多的系数变量可以控制其函数值的变化。基于梯度提升的在线多重正则化算法在系数变量的梯度方向上寻求对偶函数提升量,而基于贪婪提升的在线多重正则化算法通过求解一个二次规划(QP)问题来最大程度的提升每个学习周期中的对偶函数。实验证明了多正则化项在在线半监督算法中同样可以改善学习效果。
其他文献
<正>"宁要城市一张床,不要乡村一间房"的观念正在悄然改变。福建不少高校毕业生自愿放弃优越的城市生活,打起行李回到农村创业。福建农林大学软件工程学院2011届毕业生黄灵武
为解决传统数据交换存在成本高、效率低的问题,本文在对不同数据处理方法比较分析基础上,对企业如何利用EDI技术实现数据交换进行了设计。研究认为EDI技术可更好地提高企业信
德育教育是学校教育的重要组成部分,在构建学校德育体系的新形势下,共青团以其独有的特点和优势参与学校德育体系的整体构建,通过开展思想政治教育及各种实践活动,以活动为载
近几年来,随着城市化的快速发展和国际形势的日益严峻,人防3工程建设也呈现出快速的增长趋势,人民防空工程是战时保障战时人员安全与物资掩蔽、人民防空指挥、医疗救护的重要场
自然界的神奇现象震撼人心,生活中的物理现象妙趣横生。因此,让学生从身边熟悉的生活现象中探究并认识物理规律,同时将学生认识到的物理知识及科学研究方法与社会实践及其应
<正>陈超是中国当代诗人、诗歌评论家,在中国当代诗歌研究中具有举足轻重的学术地位。本书由陈超的学生、中国作家协会会员霍俊明撰写,让我们在这部记述诗人生平的传记中了解
本文首先介绍了防火涂料的分类,从防火机理、技术性能等几个方面阐述了膨胀型防火涂料的特点,然后结合实际情况,提出了一些防火涂料的发展方向和设想。
根据我国现行增值税的地位和现状,对增值税的公平与效率性进行实证分析,结论表明现行增值税不仅会产生社会福利的效率损失,而且具有一定程度的累退性,公平的收入再分配效应弱
黄药眠是我国著名的文论家、教育家,也是五十年代美学大讨论中最重要的美学家之一。黄药眠在"生活实践论"美学方面颇有研究,但因为1957年被错划为右派,其很多思想主张被湮没
激光的特性主要有以下几点:能量集中、单一频率、单一色彩、亮度高、极好的方向性与相干性,也正因为这些特性,激光被广泛应用于医疗卫生领域。从诊断到医治、从屈光手术到整