Structured Pruning of Deep Neural Networks Based on Information Entropy and ADMM

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:elsie0709
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近数十年来,得益于GPU硬件算力设施的发展进步,许多领域,例如:计算机视觉,生物图像识别,无人驾驶等)凭借着深度神经网络强大性能,取得了瞩目性的性能成就。而提升深度神经网络性能的重要关键点之一就是增加网络模型的深度和宽度,因而形成了网络模型参数量大,计算量多,内存耗费要求高等诸多特点。这阻碍了神经网络模型在移动设备上的拓展和使用,当然,这也还催生了模型压缩和加速领域的产生和其中的大量研究工作产出,不少工作也取得了较不错的结果。其中,在模型压缩方向上,主要包含参数剪枝和共享,低秩分解,紧凑的卷积过滤设计和知识蒸馏四类。参数剪枝和共享方法侧重关注移除那些未对模型性能做出贡献的冗余部分;低秩分解方法主要使用张量分解的原理来估计代表原有的信息参数;紧凑的卷积过滤器这类方法尝试设计特殊的卷积结构来代替原有大的卷积过滤器,达到减少所需运算的内存和浮点运算的目的,从而实现模型加速;而对于知识蒸馏这一类方法,其主要是使用一个具备较强学习能力的模型去迁移训练一个较小的紧凑的网络模型,直至得到一个只学习原有引导模型的领域知识的小型网络。四类方法中,除开紧凑的卷积过滤器方法只能用于卷积层,其余方法既可以用于卷积层又可以用于全连接层。实际上,要设计出最优的模型压缩方案需要联结多学科的领域知识,包含但不仅限于软硬件设计,算法优化,参数优化,自动机器学习,强化学习这些方向,因此模型压缩领域还具有很多扩展性的发展空间。最近,经过对模型压缩方向中相关研究工作的调研后,对此文中所提出的算法框架及有关理论背景做出以下简介。·交替方向乘子法(ADMM)算法是一类强大的数学优化技术。由于现代数据集规模和复杂性的爆炸式增长,能够解决带有大量特征或训练示例的问题变得至关重要。这些数据集的分散收集或存储以及随附的分布式解决方法都是必要的,或者至少是非常理想的。而在近些年来,乘法器的交替方向方法非常适用于分布式凸优化难题,尤其适合于统计学,人工智能中的机器学习和其它相关学科中出现的大规模问题。深度神经网络中的模型压缩问题也可以被规约到交替方向算子法可解决的带有组合限制的非凸优化难题。·介绍信息熵之前,非常有必要概述信息论的基本思想,即所传达的消息的“信息价值”取决于消息内容令人惊讶的程度。如果某个事件很可能发生,那么当该事件按预期发生时也就似乎显得不足为奇。因此,此类消息的传输几乎没有新信息。但是,如果事件不太可能发生,则了解该事件已发生或将要发生将提供更多信息。而信息熵作为信息论中最重要的概念,被看作衡量事件所含有信息的平均信息量,和用来表示对信息的量化度量。我们可以认为熵越大,信息的不确定性也越大,那么可以得出的信息也是最多的。·结构化权重剪枝技术作为模型压缩领域中参数剪枝类中极具代表性的方向,凭借着特有的剪枝结构规整的优点,可使被压缩过的模型在现有的框架中实现加速推理,突破了那些依赖于特殊软硬件库的非结构化权重剪枝类方法的局限性,因此结构化剪枝的策略成为了许多学者的研究对象。另外,尽管现有工作也大多取得了较好的模型剪枝率,但是它们都是启发式的,既不能取得最优的压缩效果也缺乏对压缩性能和收敛时间的担保。为了解决上述问题,本文根据已有的部分工作提出了一种基于熵的ADMM结构化权重剪枝算法。ADMM算法优化可以将DNNs模型的权重剪枝问题转化表述为具有组合限制的(基于通道的结构化稀疏)非凸优化问题。通过使用ADMM算法和增强拉格朗日,原来的权重剪枝问题可以转化为两个子问题,第一个子问题可以通过梯度下降来解决,而第二个子问题可以通过分析的方式解决,两种方法在迭代中同时进行。值得注意的是,我们采用信息熵来评估中间输出通道的重要性,并且这种评估方式被穿插在ADMM算法中作为组合限制条件。具体地,如果结合信息熵的理论以及结构化剪枝的策略,可以考虑使用基于熵的结构化剪枝方案,而在结构化剪枝策略中,包含基于过滤器的剪枝,基于通道的剪枝以及基于过滤器形状的剪枝三种策略。过滤器剪枝和通道剪枝两种方法非常相关,即前一层的过滤器剪枝会造成对应输出通道被剪枝掉,而在矩阵的视图角度下,就是基于行和基于列的区别。而基于过滤器形状的剪枝方法相对于前两者方式,剪枝的粒度更细致一点,实现方案也更复杂。综合权衡考虑,本文中采用了基于通道的结构化剪枝方法,表现形式为:利用当前层的输出激活通道,经全局平均池化操作后展开得到熵评估矩阵的一行,其形状可以理解为(1 × c),再通过大小为n的评估集来得到最终的评估矩阵(n× c),接着对评估矩阵按等长区间进行划分并得到对应区间的概率,这样就能计算每个通道的信息熵,最后进行排序和剪枝。而具体的通道剪枝步骤是:通过过滤器与掩码做内积对前一层对应过滤器的相应位置置零,然后做卷积操作。利用熵的特征通道剪枝方案,可以理解为:如果当前特征通道的熵值越小(如,0.00001这类趋近于0的值),那么这个特征通道的不确定性越小(可以理解为只能学习特定的极少数特征),则该当前通道所能学习的特征量也越少,最终导致该模型所在层的学习能力不高。因此这类通道可以认为不重要,并且可以被剪枝掉。值得关注的是我们的算法还采用了一种利用掩码的再训练微调,渐进式的权重剪枝技巧来得到更高的收敛速度。使用掩码更新权重的好处在于能防止被剪枝的权重在反向传播中的进行权重更新。这样有利于在使用基于熵的ADMM算法剪枝过程中,更加关注那些应该被剪掉但还未完全收敛的权重,从而实现加快剪枝收敛的效果。而渐进式权重剪枝技巧的思想来源于动态编程的思想。动态规划是解决多阶段决策过程最优化的常用方法,其主要观点是将待解决的原问题分解成若干个具有相同结构且相互联系的子问题,接着先求解子问题,然后再从这些子问题的解中得到原问题的解,而对于多次出行的子问题,只需要第一次遇到时进行求解并保存起来,而下次遇到时直接引用。迁移动态编程的思想到本文工作中的剪枝问题中,我们对于目标剪枝率的模型,可以由上一次部分剪枝的最优结果得到,归纳此步骤,即我们只用对预训练模型进行部分剪枝,然后每次进行进一步部分剪枝,更新每一次最优的部分剪枝结果。总结本文中的相关方法策略,我们最终提出了一种基于熵的ADMM权重结构化剪枝框架,该算法框架可以在保留ADMM算法的收敛效率的同时,又同时可以保留原有模型的精度性能;另外采用的结构化剪枝策略可以轻松的在现有的框架下实现硬件加速,摒弃了非结构剪枝需要特定硬件和计算库支持的缺点。最终相关的实验结果也表现出非常好的权重剪枝效果同时优于比较对照的同类实验方法。对于在MNIST数据集上的LeNet-5和LeNet-300-100模型,我们分别取得了 60倍和18倍的权重剪枝而几乎没有丢失精度。而在cifar10数据集上的AlexNet和VGG-16模型,在可接受的精度损失范围内各自取得了 16倍和25倍的模型压缩率。可以发现,与单独使用ADMM算法的非结构剪枝方法相比,在相同的剪枝率下,我们取得了更快收敛速度,这表明使用基于熵的ADMM算法既可以达到预期剪枝目标又可以保留结构化剪枝的优势;而与单独使用熵的结构化剪枝方法相比,我们可以达到更好性能精度,即使用ADMM算法可以更好的保留原有模型的学习性能。因此,我们最终可以得出结论:本文中的算法框架可以取得较为出色的结构化权重剪枝效果,达到了预期的实验目的。另外,在本文的研究工作中,我们最终还讨论了文中的一些待改进的内容。虽然ADMM的算法框架将剪枝问题转化为带有组合限制的优化问题,摆脱了过去过度依赖启发式信息引导剪枝的策略。但是本文中为了实现结构化剪枝的目标,引入了基于信息熵的通道评估方法,因此在这里还是相当于引入了熵这个启发式的信息帮助我们评估特征通道的重要性。另外,在考虑到使用熵来评估特征通道的重要时,熵值的大的特征通道不一定对目标任务做出有效的助力作用,例如针对分类任务,如果这个通道包含较多的“无用”信息,此信息对分类结果并不能产生有效的贡献,那么这个较大的熵值可能也应该被剪掉。所以对于熵这个通道评价指标,也可以有进一步的提升空间,例如可以使用互信息来评估特征通道的重要性,因为互信息的定义可以帮助我们既关注当前通道的信息量又关注与分类标签的关联性。当然这只是一个初步的猜想,使用互信息来评估激活通道的重要性是否比使用信息熵的指标有效,还需要实验进行进一步的验证。其次,结构化剪枝的策略也存在一定的局限性。例如,当我们进行对特征通道按比率进行剪枝时,可能存在通道数量取整的问题,甚至是当遇到含有特殊结构的网络模型时,这个剪枝的比率的通道数可能是没有意义的。最后,回到ADMM算法本身,剪枝问题被转化为优化问题,要想实现在保证模型性能的同时又取得一个全局最优的剪枝效果,这仍是一个巨大的挑战。目前的算法框架是人工设置每一层的剪枝阈值,难免得到的剪枝结果不一定是最好的,而要解决此类问题,或许还是需要考虑使用AutoML的自动化机器学习技术。
其他文献
在职中小学教师有偿补课是一个新鲜的教育话题,政府针对此教育乱象出台了一系列的政策,各地相关教育行政部门也在积极响应治理在职中小学教师有偿补课。本研究拟从江西省赣州市为研究对象,对其政策执行现状进行分析,在综合考量在职中小学教师有偿补课各个利益主体的前提下,进而提出精准的对策建议,为江西省赣州市乃至全国其他地区在职中小学教师有偿补课的治理提供借鉴,促进我国教育事业稳步发展。本研究的研究内容如下:第一
早在史前就有人类开始为了生计圈养动物,后期随着人类生存模式的进化,圈养动物已经不单是为了生存果腹,收集奇珍异兽成为彰显个人社会地位的一种方式。随着人类社会的发展,生活水平的逐步提高,动物园逐渐成为串联自然界与人类城市生活的重要媒介。尽管人们对于生态环境的关注日渐密切,但由于经验和理念上的不足,国内目前对动物园的研究设计还未形成系统的理论体系,缺乏方法性意见指导,相关文献主要集中在对国外典型案例的介
学业拖延是在发生在学业情境中的有意识而无必要的拖延行为。研究者发现我国大学生普遍存在学业拖延行为,并由此引发了许多问题。当前对学业拖延的研究多是从其内部影响因素展开,较少有从影响学业拖延的外部因素展开,因而对学业拖延的具体影响因素及其作用机制进行进一步研究是很有必要的。本研究在班杜拉三元交互决定论及以往研究的基础上,构建出关于学业拖延的中介模型,即压力事件能够影响学业拖延,心理弹性也能对学业拖延产
“生命之流”是产生于中国“八五美术新潮”时期文艺界重要的艺术现象。20世纪80年代,国家经济、政治发生重大变革,西方现代主义思想传入中国,在这样一个迷茫、渴望、焦虑又富有激情的年代,艺术作品的主体意识逐步凸显,艺术的生命力在该时期的作品中厚积薄发,“生命之流”艺术现象应运而生,涉及美术、音乐、电影、文学等多个艺术领域。在美术领域,艺术家大多以群体的方式出现,其中,“西南艺术群体”就是“生命之流”艺
随着社会政治、经济与科技的不断发展,由女性导演执导的各式纪录片进入到普罗大众视野,这些导演有着极高的天赋和表达欲。她们的作品不仅记录事件,表达现状,更包含了自己对于社会边缘群体的独特洞察和艺术思考。后真相时代,许多人对“独立”的理解不充分,在情绪的狂欢下缺乏理性的判断,容易成为人云亦云的附庸。纪录片作为真实地反映社会现状和人物命运的艺术作品,尽管在不同的时期特点不同,但都发挥着它重要的社会价值。文
台风"利奇马"过后,南麂岛的人家一片狼藉。80后大黄鱼养殖户端萍和父母在南麂保护区管理局技术人员的陪同下,来到养殖大黄鱼的海面上,修补网箱,清理垃圾,为受伤的鱼消毒,捞起死鱼另行处理。他们认真地把漂浮在海面上的网箱碎片打捞起来装在小船中,盛夏的烈日,照得他们身上的汗水闪闪发光。端萍抬头揩了揩额头的汗水说:"现在南麂正在做垃圾分类,我们要尽可能地把垃圾收回来,处理到位……我们世代靠海为生,海洋
期刊
我国财政部2016年12月发布《中国注册会计师审计准则第1504号——在审计报告中沟通关键审计事项》,规定2017年率先在A+H股上市公司审计报告中增设关键审计事项,2018年开始在我国所有上市公司审计中全面实施该准则。关键审计事项作为审计师根据职业判断从“与治理层沟通的事项”中选出的对本期财务报表审计最为重要的事项,旨在增加审计工作透明度、提高审计报告信息含量,这必然会对审计质量产生重要影响。根
学位
2020年为我国脱贫攻坚的收官之年,我国将全面建成社会主义小康社会。在十九大报告中,习近平总书记提出了乡村振兴战略,着力解决“三农”问题,在打赢脱贫攻坚战的同时,需要关注农业产业的可持续发展,把确保贫困人口的稳定持续增收落到实处。贵州省属于革命老区,省内多山地丘陵,南部多个市、州地处滇桂黔石漠化区,生态环境脆弱,传统农业的发展容易受到地形以及地质的限制。贵州省依托本省丰富的中药材资源,走出一条特色
民初,工商部、司法部会同颁行《商事公断处章程》,专门的商会理案机构正式成立。商事公断处附设于商会,处于正式的司法体系之外,整合运用商人团体提供的资源,是一种社会化的断案组织。苏州商会处于商业繁盛地区,档案资料保存较为完整,从苏州商会商事公断处在1913年至1927年的断案活动入手开展研究。不同于清末商会松散、随意的商会会员理案,部订章程和办事细则明确了商事公断处的正式地位,并对评议员选任、评议组织