卷积神经网络模型中的知识蒸馏研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:shuijing0328
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,随着信息技术的发展,深度学习在诸多领域取得了优异的成绩,卷积神经网络已然在许多计算机视觉任务上起到了不可磨灭的贡献。然而,卷积神经网络的高效性能是以资源的消耗为代价的,存在着参数量过多、计算量过大、能源消耗过大、运行时间过长等问题,无法保证在移动端、嵌入式设备等资源受限平台上的应用,影响着人们的日常生活。因此,针对卷积神经网络的模型压缩的研究具有重要的意义。知识蒸馏是当前模型压缩方法中的一种有潜力的方法,其中,一个已预训练好的大模型称为教师模型,待训练的小模型称为学生模型,学生模型在教师模型传递的知识的指导下,能够获得更多的训练数据之间的结构化信息,因此知识蒸馏能够提升小模型的性能。本文分别从知识的定义、教师和学生的差异两个角度,提出了两种全新的知识蒸馏算法:1、基于三元组蒸馏的知识蒸馏算法,主要针对人脸识别任务,在广泛使用的Triplet loss的基础上进行优化。该方法首先探讨了原始的方法中忽略了普遍存在的“两个人长得更像”的现象,因此提出了人脸相似程度的概念。并将其定义为一种教师的知识,随后将其映射至合适的范围作为动态的加性裕量传递给学生模型进行训练。该方法在多个验证集上证实了有效性。2、基于多学生蒸馏的蒸馏算法。该方法首先通过理论和实验两方面分析了在知识蒸馏中教师模型和学生模型之间的差异所带来的影响。由于学生和教师的容量的差距,学生只能学习到教师的部分知识。因此本文利用了教师和学生的这种差异,提出了多学生同步训练的框架。一方面,本文使学生之间进行互相的交流,互相学习;另一方面,本文又适当地扩大学生之间的多样性,增加有效的信息量。同时,针对多学生同步训练框架可能带来的硬件、时间资源的消耗,提出了多分支同步训练的框架,在训练消耗时间和硬件资源消耗上都有了显著的进步。两个框架在多个验证集上都取得了超越以往方法的分类性能。
其他文献
本文基于对风险项目及其"孪生证券"风险和收益特性的分析,认为真正的"孪生证券"实际中很难存在,进而提出利用"近似孪生证券"与无风险证券构造资产组合来复制实物期权收益特征
公测时期的神族说完了玩家们选择神族的理由,下面步入正题,和大家聊聊神族这一年来的故事。提到神族,我相信所有星际2玩家大脑里第一个想到的就是四兵营rush,这真是一段噩梦般的
小型仿生扑翼机可以应用在军事侦察,环境监测,地质勘探,人员搜救,作物授粉等领域,是当前国内外科研机构致力研究的对象。其优势在于机动力强、能量损耗小、飞行方式灵活高效,
在数字信息飞速发展的时代背景下,作为影响人们日常生活的手机APP已成为博物馆对外展示中不可或缺的一部分,相对于成熟完善的地方博物馆展馆设计,地方博物馆APP方面的设计较
横竖错觉作为经典的几何图形错觉之一,以其独特的结构受到研究者的青睐,简单的两条线却使人产生如此稳定的错觉,错觉的产生可能是不同因素共同作用的结果。比较视觉搜索任务更多的是比较刺激之间的差异,而很少关注背景对比较视觉搜索任务的影响,国内外的斑马线存在不同的形式,国内斑马线与道路平行而国外斑马线与道路垂直,这两种斑马线可以作为研究背景。本研究把对横线和竖线的直接加工与以横线和竖线为背景联系起来,探讨不
随着视频传输系统的高速发展,低压差分信号LVDS(Low Voltage Differential Signal)作为高速、串行的视频接口技术在视频传输领域得到广泛的应用。但是LVDS视频接口具有开放性