论文部分内容阅读
主动学习作为一个框架,它需要与有监督学习方法结合才能被应用于一个实际问题,最常用且性能最好的有监督学习方法就是支持向量机和深度神经网络。因此本文的研究内容是支持向量机以及深度神经网络与主动学习的结合。主动学习和支持向量机的结合可以降低支持向量机训练时所需的标签样本数量,降低算法的成本。主动学习和深度神经网络的结合可以提升深度神经网络的算法安全性以及对对抗样本的抵抗性。但是这两种结合存在着以下问题:对于主动学习支持向量机来说,主要的问题是算法对初始状态的敏感度高,易陷入局部最优解,以及对数据集的信息挖掘不够,造成信息浪费;对于主动学习深度神经网络,主要的问题是现有的算法无法保证深度学习算法对对抗样本的抵抗性,攻击者依然可以找到有效的对抗样本攻击目标模型。针对以上问题,本文从数据的流形结构出发,主要做了以下研究:(1)针对传统的主动学习支持向量机对无标签样本数据利用不充分的问题,设计了基于谱聚类的主动学习支持向量机算法,该算法通过利用无标签样本中的信息,提高主动学习支持向量机的性能。在文本分类标准数据集上的实验结果表明,所提出的算法取得了比传统主动学习算法更好的效果。(2)针对传统的主动学习支持向量机对初值和噪声敏感的问题,利用数据集的低秩特性,设计了基于低秩子空间聚类的主动学习支持向量机方法。该算法利用低秩子空间聚类挖掘数据的低秩子空间结构。根据聚类的结果,选择两个簇中间稀疏区域的样本作为初始的标签样本,利用这些初始标签样本继续训练主动学习模型。在标准数据集上的实验说明了所提出的基于低秩子空间聚类的主动学习算法在分类性能和对初始状态的鲁棒性上优于传统的主动学习算法。(3)针对传统的主动学习支持向量机对有标签样本数据利用不充分的问题,设计了基于低秩转换的主动学习算法。该算法引入低秩转换来挖掘数据集中有标签样本的信息,经过低秩转换后的数据可以到达类内距离最小化和类间距离最大化。在每次迭代中,数据先经过低秩转换被映射到特征空间,之后在特征空间更新分类模型。随着迭代的进行,越来越多的标签样本可以使低秩转换得到更精确的子空间信息,从而使分类模型有更好的效果。在多个标准数据集上的实验表明,本章提出的算法在分类性能和收敛速度上优于传统的主动学习算法以及被动学习支持向量机方法。(4)针对传统的主动学习深度神经网络,即对抗深度学习依然可以生成针对模型的对抗样本的问题,设计了一个全新的对抗深度学习框架。对抗主动学习是深度神经网络在主动学习框架中的实现,它的目的是提高深度学习对对抗样本的抵抗性。基于现有的对抗深度学习方法,结合数据的流形特性,设计了一种随机特征丢弃(random feature nullification)算法。本算法在模型中引入随机变量,从而阻止了针对模型的对抗样本的生成,提高了深度神经网络对对抗样本的抵抗性。所提出的算法比现有的对抗深度学习算法在MNIST和CIFAR-10数据集上有更好的抵抗性。本算法还被应用到恶意软件分类中,并取得了很好的分类效果和鲁棒性。