论文部分内容阅读
语音唤醒是人机交互的重要入口之一,通常以识别少量的关键词来实现唤醒功能,因此关键词识别技术(Keyword Spotting,KWS)已经成为语音识别领域中的一项关键技术。关键词识别电路在电子设备中通常作为开关的功能使用,这一功能特性决定关键词识别电路处于一种始终保持运行的常开(Always-on)状态,因此对关键词识别电路的极低功耗要求越来越迫切,尤其是在物联网和可穿戴设备等电池容量有限的应用场景中。基于此,本文设计了一种基于深度神经网络的极低功耗端到端关键词识别电路。本文对关键词识别电路所要实现的算法和模型进行了低精度量化等压缩处理,以减小电路的存储和计算资源。对梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)特征提取算法进行分步分级混合精度量化;基于深度可分离卷积神经网络(Depthwise Separable Convolution Neural Network,DSCNN),利用二值化和固定精度量化等处理方法,训练得到了一个可用于两个关键词识别的“轻量级”混合精度的深度可分离卷积网络。本文对量化后的特征提取算法以及神经网络模型分别进行电路设计,提出了一种极低功耗的关键词识别电路。主要工作及创新点包括:(1)对特征提取电路进行分模块设计,并根据运算步骤进行分帧流水式设计,将特征提取电路的运行频率降低为原来的1/4。(2)设计了由计算单元(Process element,PE)阵列、存储模块、数据映射模块及控制状态机组成的神经网络处理电路,PE单元采用混合精度乘累加器(Multiply and Accumulate,MAC)设计,对其数据表示方法进行了特殊处理以降低PE阵列功耗。(3)基于语音特征流数据的输入特点,使用语音流数据复用方式,将网络的8比特和1比特计算量分别削减为复用前的5%和7.34%,将神经网络中间数据的存储规模削减为复用前的28.6%。本文采用TSMC28nm工艺进行了电路仿真。实验仿真表明本文提出的关键词识别电路可实现2个关键词的识别功能,准确率达95.6%。电路在40kHz频率下运行,特征提取电路和神经网络处理器的功耗分别为0.28μW和0.12μW,整体关键词识别电路功耗仅0.4μW,低于国内外同类设计。