论文部分内容阅读
关键词识别(Keyword spotting,KWS)是一个热门的研究方向,在可穿戴设备、机器人和智能家居等领域有着大量的应用空间。卷积神经网络(Convolutional Neural Network,CNN)能够联合语音信号时域和频域的特征,并且对于噪声有很好的鲁棒性,因此成为关键词识别中最重要的神经网络算法之一。但是CNN参数量和计算量巨大,限制了关键词识别在便携式设备的部署,因此卷积神经网络的压缩有着十分重大的现实意义。本文的KWS系统是基于CNN实现的,而CNN是计算密集型和存储密集型,因此本文对CNN进行压缩,压缩主要包括量化和剪枝两个方面。通过对权重参数、激活值和网络输入进行量化以及对卷积层进行剪枝,可以大大减小模型的参数量和计算量。权重二值化可以大大压缩参数的存储空间,但二值化造成网络性能下降,本文采用渐进量化的策略对权重进行二值化,有效减少了网络的性能损失。由于CNN模型在计算过程中每层有大量的输出(激活值),通过对激活值进行低位宽量化可以大大减小模型大小。对网络输入进行量化造成了极大的信息损失,本文提出高阶残差量化方案,通过高阶残差量化从量化丢失的信息中提取有用信息,有效保证了网络的性能。量化大大降低了模型的参数量,但是并没有减少网络的计算次数。由于卷积层占据了整个卷积神经网络绝大部分的计算量,为了降低网络的计算量,本文基于前后级联合评价策略的卷积核级剪枝方法对卷积层进行剪枝,在对卷积核剪枝的同时保持输出不变,使网络准确率几乎不受影响。通过对KWS系统进行压缩研究,权重参数压缩了55倍,计算量减少70%左右,同时网络准确率仅下降1.16%。本文的KWS系统取得了良好的性能,与其他基于CNN的KWS系统相比,准确率提高1.02%~3.42%,而与比本文准确率仅高0.38%的KWS系统相比,本方案的参数量和计算量分别是其65%和24%。