论文部分内容阅读
随着大数据、物联网、人工智能等科技领域的高速发展,通过语音进行人机交互正在成为新一代信息流入口。以智能音箱为代表的智能家居领域作为人工智能最佳的落地场景,相关的智能语音产品得到了广泛应用。现阶段的智能神经网络技术中,由于运算量大等特点,语音识别模型主要还是基于云端设计,这就限制了语音产品在终端的使用场景,而且数据上传到云端进行分析意味着用户的隐私得不到保证。当前大部分语音识别系统的识别率和实时性对于提升用户体验还有很大的进步空间,其主要还只是适用于娱乐消费领域。所以对于如何提升语音识别芯片的性能,让语音识别更好的为人们的生活工作领域服务,仍然有待进一步研究。因此,本文将研究方向定位于面向终端硬件的语音识别应用研究,以期在满足一定识别准确率的条件下降低运算量,从而适配硬件性能。本文的主要研究成果如下:(1)本文研究分析广泛应用于语音识别的长短时记忆神经网络LSTM和改进后的GRU模型的特点,在此模型基础上通过Google新发布的语音指令数据集speech_commands_v0.01中90%的数据,训练了用于实现语音识别的神经网络模型。(2)提出了结合数据类型、网络模型层数,隐藏单元数等参数对GRU网络模型性能进行优化的观点,以同等条件下普通LSTM架构作为参考,通过事先准备好的10%的Google语音数据集来测试验证不同参数条件下的网络模型的识别率和功耗性能。(3)为了进一步验证第(2)点中所述的优化方向在面向终端的硬件中同样适用,本文分析研究了当前主流的语音识别的芯片结构特点,设计了一套符合终端硬件要求的SOC框架,并通过FPGA对网络模型进行参数的仿真验证分析。实验结果表明,同样的参数配置下,改进后的GRU网络模型的运行速度比LSTM更快;LSTM和其改进后的GRU模型的识别率、功耗等性能会随着数据类型、网络模型层数,隐藏单元数等参数的变化而变化。当数据类型由int8变为int16,或者增加网络模型层数,或者增加隐藏层单元数时,网络模型的识别率会提高,占用的系统带宽也会相应增加。其中,当网络模型层数增加到5,或隐藏单元数增加到128时,本文的网络模型识别率最高,而功耗相对较低。