论文部分内容阅读
机器学习和数据挖掘在视觉领域与自然语言领域中拥有举足轻重的地位,并随着大数据时代的到来承担着越来越重要的责任。大数据时代的发展推动着智能化时代的新生,现如今,人们能轻而易举获取大量低维、高维数据,而其中高维数据中包含大量未标记数据,已标记数据仅占很小一部分比例。对于以往机器学习,学习机在完善模型过程中需要大量标记数据参与到训练中,训练完成后方可对测试数据或者未知标签数据进行类别预测。在过去科学技术不发达,人工记录数据的时代,由于数据维数低、结构简单,监督式方法获得了很大的发展,直至现如今趋于完善的程度。但大数据时代到来之后,数据标记成本随着各行业高维数据规模呈指数级别的增长而增加,大量无标记数据的获取却毫不费力。因此,研究者在训练学习机时尝试将未标记样本参与到少量标记样本中进行组合训练,试图解决监督学习容易过拟合、无监督学习模型不准确等现状,由此半监督学习应运而生。在当今人工智能时代,半监督学习能充分利用无标记数据的特点使其成为机器学习的新宠,同时无需大量人为交互、海量未标记数据价值得以体现的好处也随之突显出来,半监督学习逐渐得到更多相关领域研究者的青睐。半监督学习的应用非常广泛,其中一个重要研究方向就是半监督分类。半监督分类能够利用大量未标记样本训练,同时仅需很少的标记样本参与。权衡监督分类与无监督分类利弊可以发现,半监督分类既能利用监督分类挖掘标记数据信息的优点,还能利用无监督手段去挖掘未标记数据所包含的结构信息。半监督分类建模需要模型假设,当模型假设逼近现实问题,半监督分类的优良性能才能突显出来,半监督分类基于常用的聚类假设与流形假设衍生出一些经典的半监督分类方法,其中基于图的半监督分类方法就是使用流形假设建模。基于图的半监督分类模型的优劣取决于构造图的质量高低,因此,挖掘数据内部结构对图反映数据分布、建立准确分类模型是相当重要的。本文基于现有的基于图半监督分类方法理论与最新研究成果为前提,展开如下研究工作:(1)通过研究分析,针对现有半监督分类方法中没有考虑噪声样本导致分类模型不准确的问题,提出一种结合稀疏图和自步理论鲁棒半监督分类算法。算法首先在基于流形正则化框架中采用自步学习理论优先选择可信度高的样本来训练目标分类模型,再依次加入可信度较低的样本,并采用l2,1范数对权重矩阵进行重构,直至所有样本参与训练或函数值不再变化,最终训练出一个稳定模型。自步学习理论能在拟合过程中,考虑训练样本的重要程度,把不相关或噪音样本排除在训练外。另外,稀疏表示构造的权重图能够低维流形数据通过用图的方式具象化,对不重要数据进行降权处理,减少不重要数据对结果的影响,同时对稀疏选择后的样本中的离群样本表现敏感。(2)除了噪音样本与维数灾难的干扰以外,算法分类性能高低也与构建图的质量优劣紧密相连。在前一方法提出基础上,提出了自表达动态图半监督自步分类算法,图构建步骤中优化特征集得到的相似度矩阵,得到更接近实际情况的准确图,并使用局部保留投影技术,使得在降维过程中数据局部结构保持原有形态。除考虑局部信息之外,还注重全局数据信息间的线性关系,通过属性自表达的方式使得每个数据都能用整体数据线性表达出来。提出算法同时考虑全局与局部信息,还解决构建图不准确的问题,并且对噪音样本同样具有鲁棒性。综上所述,本文的独特之处在于创新性的将自步学习与属性自表达,稀疏理论嵌入基于图的分类框架中,提出了两种新的半监督分类算法。不仅证明各算法收敛性,同时通过对比多种领域内优秀算法、采用双评价指标(准确率与F1分数)方式验证了所提出算法在大多数情况下都展现了优异的泛化能力。