【摘 要】
:
深度神经网络是一种通过从数据中学习参数的网络结构.近年来,由于在图片分类、目标检测、自然语言处理、语义分割等方面取得一系列突破性成果,深度神经网络受到了越来越广泛的关注.性能优越的神经网络通常都有着成功的架构设计,但同时其所包含的参数数量也相当庞大,训练时需要极大的内存开销及计算代价,因此难以在存储空间和功耗受限的嵌入式设备上应用.因而压缩已有的网络,使之在性能基本不变的条件下尽可能地减少参数数量
论文部分内容阅读
深度神经网络是一种通过从数据中学习参数的网络结构.近年来,由于在图片分类、目标检测、自然语言处理、语义分割等方面取得一系列突破性成果,深度神经网络受到了越来越广泛的关注.性能优越的神经网络通常都有着成功的架构设计,但同时其所包含的参数数量也相当庞大,训练时需要极大的内存开销及计算代价,因此难以在存储空间和功耗受限的嵌入式设备上应用.因而压缩已有的网络,使之在性能基本不变的条件下尽可能地减少参数数量和模型的大小就成为人们亟待解决的问题.于是人们提出了诸如剪枝、参数共享、知识蒸馏等模型压缩方法.剪枝是一类操作简单且使用方便的方法.剪枝指的是,在保证网络性能不下降或者下降概率在可接受范围内时将网络一些不重要的结构或者参数删除掉.剪枝可以分为非结构化剪枝和结构化剪枝.现有的剪枝方法要先训练出一个大型的网络,然后对这个复杂的网络进行处理,减少其参数数量和计算量,以达到压缩原有模型的目的.那么能否在训练前就找到这个参数数量更少,而处理能力又不降低的模型呢?针对这个问题,本文将用于非结构化剪枝的彩票假说引入到Batch Norm层的通道剪枝方法中,构建了新的网络压缩模型.并就fine-tune(剪枝后剩余的参数不变,直接进行训练)、winning ticket(将剪枝后剩余的参数返回至训练前随机初始化的数值)和random init(对剩余参数进行随机初始化)这三种参数调整方式对结构化剪枝和非结构化剪枝两种剪枝方式分别进行了实验,研究了网络结构和参数与压缩方法之间的关系,得到如下结论:1.对于基于参数绝对值大小进行的非结构化剪枝,剪枝率小于80%时winning ticket的测试精度要明显高于fine-tune和random init,这说明非结构化剪枝方法,在网络训练前,参数随机初始化之后,将一些无用的网络进行直接剪枝并进行训练,可以得到能力较强的网络;2.对于根据Batch Norm层因子进行通道剪枝的结构化剪枝,在剪枝率小于80%时,winning ticket的表现不如random init,但是相对来说,二者都比fine-tune的网络测试精度高.这说明对于结构化剪枝,剪枝后得到的网络结构要比剩余的训练得出的参数数值更重要;3.经过剪枝后的网络,有可能比原来的网络精确度更高,这说明剪枝操作可以有效缓解网络的过拟合问题.综上所述,对结构化和非结构化两种不同的剪枝方式,采用不同的参数调整方法所训练的网络性能不同.这些结论对于网络模型压缩中各个环节不同处理方式的最佳组合选择提供了有益的参考.
其他文献
本文主要给出了Hom-预李代数的阿贝尔扩张的概念,并且用上同调群给出了它们的分类,证明了同构的阿贝尔扩张与二阶同调群的不动点集一一对应.之后研究了Hom-李代数的阿贝尔扩张与Hom-预李代数的阿贝尔扩张的关系,证明了一个Hom-预李代数的阿贝尔扩张可以自然给出一个Hom-李代数的阿贝尔扩张.全文共分为三章.在第一章中,我们介绍了研究课题的历史进程,相关方向的研究内容及其进展,之后介绍了本文的研究目
本文研究了一维空间中自由边界区域上的具有Lotka-Volterra型弱竞争项的抛物-抛物-椭圆型趋化系统的数值逼近问题。这种具有自由边界的趋化模型描述了受到某些化学物质影响的新物种或者入侵物种,在一个具有扩散前沿(即自由边界)的环境中的扩散情况(见[1])。数值研究的主要挑战在于追踪移动的自由边界以及处理由于趋化效应而存在非线性项。为了克服这些挑战,我们引入了有限差分法与向前差分格式相结合的方法
本文研究了一类具非线性反应项的一维退化抛物方程的初边值问题的零可控性,问题如下:ut-(xαux)x+μ(x,t)ux+p(x,t,u)=h(x,t)Xω,(x,t)∈ QT,u(0,t)=u(1,t)=0,t ∈(0,T),u(x,0)=u0(x),x ∈(0,1),其中 0<α0,QT=(0,1)×(0,T),μ ∈ L∞(0,T;W1,∞(0,1)),p是(0,1)×(0,T)×R
本文研究如下具有特殊扩散系数的非线性抛物方程解的爆破性质(?)(0.1)其中Ω Rn(n≥ 3)是具光滑边界(?)Ω的有界区域,0∈Ω,Δpu=div(|▽u|p-2▽u),20,k(t)≥ 0,
在本文中,我们研究如下癌症入侵模型(?)其中Ω(?)R2是光滑有界域,x,ξ,η和μ是正参数,我们对它附加零流量边界条件.这个方程组是一个趋化趋向模型,描述了癌细胞入侵组织过程中,癌细胞,基质降解酶和宿主组织间的相互作用.系统中η反映了细胞外基质的自我重建过程.本文的目的是建立上面模型初边值问题解的存在性.首先,借助不动点定理得到解的局部存在性.然后利用Young不等式、Cauchy-Schwar
复杂网络在现实生活中十分常见,如互联网、社交网和交通网等。许多的实际问题中,网络与网络之间是互相影响的,因此多层复杂网络之间的相互作用引起广泛地关注。网络的同步现象在自然界中广泛存在,一直是学者们较为关心的问题。随着多层复杂网络理论的发展,多层网络的广义同步也受到广泛地关注。目前有关多层网络广义同步的研究大多基于Lyapunov函数理论,通过辅助系统方法和线性矩阵不等式方法等,选取一定数量的节点加
本文中,我们首先研究了高阶的CH-NS方程组的初边值问题,通过对方程组的离散化和能量估计,我们证明了解的存在性,并给出了最优控制问题解的存在性.之后讨论了相关的伴随系统,并给出了相关的结论.然后我们研究了如下的耦合的油,水,表面活性剂和Navier-Stokes方程的初边值问题:这里f(c)=F’(c),F(c)=(c+1)2(c2+h0)(c-1)2,a(c)=a2c2+a0,其中Ω(?)Rn,
目的评判前置胎盘行剖宫产手术之后出血产妇接受针对性心理护理干预措施的护理效果和满意程度。方法本课题针对2018年7月~2020年11月本院妇产科纳入的62例前置胎盘行剖宫产手术之后出血产妇实施有关指标方面的调查,依据随机抽签的方式将其分为两组,各31例。试验组选用一般护理干预措施叠加针对性心理护理干预措施,参照组选用一般护理干预措施,对比两组干预前后的抑郁负性心理评分以及护理满意率。结果两组干预前
身处科学技术高速发展的今天,我们的生活与数据息息相关,也可以说是数据组成了我们的生产生活的每一部分.我们每一个观察到的实例都包含着超大的信息量,甚至一个观测值就拥有着成千上万个维度.随着数据维数的增加,与之而来的问题就是如何整理和分析这些数据.其实对我们而言,这些数据并不全是有利用价值的,而如何从海量的数据中选择出我们想要的部分,高维数据分析应运而生.上世纪60年代初,变量选择被初次提出之后,就引
本文主要研究高阶常微分方程仿射周期解的存在性和唯一性问题.仿射周期问题是近些年来人们关注的动力系统中的一类新的课题,在数学方面具有重要的理论价值,在刚体动力学、台风动力学、螺旋波、Bloch波等方面也具有重要的实际应用价值.全文总计五章.第一章主要介绍关于仿射周期解的历史背景和研究现状,以及关于解方程的一些问题.第二章主要介绍并证明一类用于求解非线性方程的单调迭代技术.第三章是本文的主要创新点,证