基于数据流形的主动学习和对抗深度学习算法研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:A13808289587
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
主动学习作为一个框架,它需要与有监督学习方法结合才能被应用于一个实际问题,最常用且性能最好的有监督学习方法就是支持向量机和深度神经网络。因此本文的研究内容是支持向量机以及深度神经网络与主动学习的结合。主动学习和支持向量机的结合可以降低支持向量机训练时所需的标签样本数量,降低算法的成本。主动学习和深度神经网络的结合可以提升深度神经网络的算法安全性以及对对抗样本的抵抗性。但是这两种结合存在着以下问题:对于主动学习支持向量机来说,主要的问题是算法对初始状态的敏感度高,易陷入局部最优解,以及对数据集的信息挖掘不够,造成信息浪费;对于主动学习深度神经网络,主要的问题是现有的算法无法保证深度学习算法对对抗样本的抵抗性,攻击者依然可以找到有效的对抗样本攻击目标模型。针对以上问题,本文从数据的流形结构出发,主要做了以下研究:(1)针对传统的主动学习支持向量机对无标签样本数据利用不充分的问题,设计了基于谱聚类的主动学习支持向量机算法,该算法通过利用无标签样本中的信息,提高主动学习支持向量机的性能。在文本分类标准数据集上的实验结果表明,所提出的算法取得了比传统主动学习算法更好的效果。(2)针对传统的主动学习支持向量机对初值和噪声敏感的问题,利用数据集的低秩特性,设计了基于低秩子空间聚类的主动学习支持向量机方法。该算法利用低秩子空间聚类挖掘数据的低秩子空间结构。根据聚类的结果,选择两个簇中间稀疏区域的样本作为初始的标签样本,利用这些初始标签样本继续训练主动学习模型。在标准数据集上的实验说明了所提出的基于低秩子空间聚类的主动学习算法在分类性能和对初始状态的鲁棒性上优于传统的主动学习算法。(3)针对传统的主动学习支持向量机对有标签样本数据利用不充分的问题,设计了基于低秩转换的主动学习算法。该算法引入低秩转换来挖掘数据集中有标签样本的信息,经过低秩转换后的数据可以到达类内距离最小化和类间距离最大化。在每次迭代中,数据先经过低秩转换被映射到特征空间,之后在特征空间更新分类模型。随着迭代的进行,越来越多的标签样本可以使低秩转换得到更精确的子空间信息,从而使分类模型有更好的效果。在多个标准数据集上的实验表明,本章提出的算法在分类性能和收敛速度上优于传统的主动学习算法以及被动学习支持向量机方法。(4)针对传统的主动学习深度神经网络,即对抗深度学习依然可以生成针对模型的对抗样本的问题,设计了一个全新的对抗深度学习框架。对抗主动学习是深度神经网络在主动学习框架中的实现,它的目的是提高深度学习对对抗样本的抵抗性。基于现有的对抗深度学习方法,结合数据的流形特性,设计了一种随机特征丢弃(random feature nullification)算法。本算法在模型中引入随机变量,从而阻止了针对模型的对抗样本的生成,提高了深度神经网络对对抗样本的抵抗性。所提出的算法比现有的对抗深度学习算法在MNIST和CIFAR-10数据集上有更好的抵抗性。本算法还被应用到恶意软件分类中,并取得了很好的分类效果和鲁棒性。
其他文献
本论文主要围绕含有吡咯烷酮结构在含氮杂环化合物合成中的应用开展了一系列拓展性的工作,主要研究对象为:含有吡咯烷酮结构N,O-缩醛类化合物和末端具有取代基的氮烯基吡咯烷酮
<正>王士祯,字子真,一字贻上,号阮亭,又号渔洋山人,故世人亦称之王渔洋,青州诸城人(即今山东诸城)[1]。原名士禛,雍正时期避"胤禛"讳改"士徵",乾隆三十九年(1774)诏改"士祯"
在小学数学课堂教学中,巧用电教媒体,以丰富的素材来创设教学情境,使抽象的学习内容变得形象生动,不但可以激发学生学习兴趣,而且还可以使学生积极主动地参与教学活动,快速、高效地
<正>一、主题背景俗话说"民以食为天,食以安为先"。食品安全指食品无毒、无害,符合应当有的营养要求,对人体健康不会造成任何急性、亚急性或者慢性危害。但是,近年来国内外突
背景:胰腺癌是一种常见的消化道恶性肿瘤,其临床表现隐匿,发展迅速,具有高度侵袭性,首选手术治疗,但根除性手术切除率不到20%。同时由于胰腺癌对放化疗均不敏感,预后极差,五年
目的:以宫颈癌乏氧Hela细胞为研究对象,通过与常氧Hela细胞对比,研究不同剂量的放射线及组蛋白去乙酰化酶抑制剂曲古霉素A(trichostatin A,TSA)对不同状态下Hela细胞增殖的抑
本文采用文献资料法、比较分析法、专家访谈法等研究方法,以悉尼、雅典、北京三届奥运会比赛前后跆拳道竞赛规则的内容变化为研究对象,对竞技跆拳道技术和比赛的发展趋向进行
目的:通过利用流式细胞技术检测每例观察者化疗(时辰化疗或常规化疗)前、后外周静脉血中CD3+、CD3+CD4+、CD3+CD8+、CD8+CD28+、CD8+CD28-、CD3-CD56+/CD16+、CD19+细胞水平的
目的探讨完全电视胸腔镜下I期非小细胞肺癌(non-small cell lung cancer NSCLC)根治术中系统淋巴结清扫的临床效果。方法回顾性分析2006年07月一2010年05月间140例临床I期非