论文部分内容阅读
随着物联网时代的到来,物端产品已经逐渐的走进了人们的生活中,其中语音关键词识别技术可以在物端产品中扮演重要的作用。因为人们可以完全免手动的方式和物端设备进行交互,但由于物端设备的算力和内存都有限,而语音关键词识别技术往往模型大、数据运算量高,因此语音关键词识别方案很难应用到物端产品。本文的目的是设计一个面向物端芯片的语音关键词识别方案,为了解决语音关键词识别技术模型大、运算量高等问题,本文提出了模型算法优化、指令优化、模型压缩和算法映射等方法,最终该语音关键词识别方案满足物端设备的高精度、低功耗、小内存占用和低计算量等要求。本文的主要工作内容如下:(1)为了减轻复杂环境中的噪声干扰,本文语音关键词识别算法的预处理阶段采用了声源定位和声源分离等算法来实现降噪,然后用梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)对语音信号进行特征提取,最后把预处理算法移植到RI5CY处理器中,并根据RISC-V的拓展指令集对预处理算法进行优化。(2)为了降低语音关键词识别算法的开销和提高算法的精度,本文的语音关键词网络为一个端到端的网络结构,该网络结构由声学模型和注意力机制组成。测试完网络模型之后,对模型进行量化压缩,然后针对专用的人工智能处理器对算法进行映射和优化。(3)为了降低计算量、减少功耗和降低内存占用,本文在语音关键词识别算法的推理过程中,输入数据采用滑动窗口机制,每一时刻只计算一帧数据。然后在求随机变量的概率时用乘加运算代替积分运算。最终本文的语音关键词识别方案在每小时一次误识率的情况下的误拒率是1.15%。通过与已知产品对比该精度可以达到产品级。在模型的计算量和数据运算速度方面,本文通过量化方法把模型计算量压缩了原来的16倍,通过专用处理器的映射方法使本文的关键词识别算法在处理器上的运算速度基本和GPU(Graphics Processing Unit)运算速度一致。