面向物端芯片的语音关键词识别技术

来源 :中国科学院大学(中国科学院人工智能学院) | 被引量 : 0次 | 上传用户:zhongfeiran
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着物联网时代的到来,物端产品已经逐渐的走进了人们的生活中,其中语音关键词识别技术可以在物端产品中扮演重要的作用。因为人们可以完全免手动的方式和物端设备进行交互,但由于物端设备的算力和内存都有限,而语音关键词识别技术往往模型大、数据运算量高,因此语音关键词识别方案很难应用到物端产品。本文的目的是设计一个面向物端芯片的语音关键词识别方案,为了解决语音关键词识别技术模型大、运算量高等问题,本文提出了模型算法优化、指令优化、模型压缩和算法映射等方法,最终该语音关键词识别方案满足物端设备的高精度、低功耗、小内存占用和低计算量等要求。本文的主要工作内容如下:(1)为了减轻复杂环境中的噪声干扰,本文语音关键词识别算法的预处理阶段采用了声源定位和声源分离等算法来实现降噪,然后用梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)对语音信号进行特征提取,最后把预处理算法移植到RI5CY处理器中,并根据RISC-V的拓展指令集对预处理算法进行优化。(2)为了降低语音关键词识别算法的开销和提高算法的精度,本文的语音关键词网络为一个端到端的网络结构,该网络结构由声学模型和注意力机制组成。测试完网络模型之后,对模型进行量化压缩,然后针对专用的人工智能处理器对算法进行映射和优化。(3)为了降低计算量、减少功耗和降低内存占用,本文在语音关键词识别算法的推理过程中,输入数据采用滑动窗口机制,每一时刻只计算一帧数据。然后在求随机变量的概率时用乘加运算代替积分运算。最终本文的语音关键词识别方案在每小时一次误识率的情况下的误拒率是1.15%。通过与已知产品对比该精度可以达到产品级。在模型的计算量和数据运算速度方面,本文通过量化方法把模型计算量压缩了原来的16倍,通过专用处理器的映射方法使本文的关键词识别算法在处理器上的运算速度基本和GPU(Graphics Processing Unit)运算速度一致。
其他文献
泊江海子煤矿位于我国内蒙古自治区内的鄂尔多斯市境内的泊江海子镇。由于这种大型煤矿的服务期限较长,因此为了保证其结构的安全性和长期稳定性,有必要对其围岩的流变特性进
智能飞行人机共驾是指将机舱中副驾驶位替换为机器人协助驾驶员操作,本文以处理智能飞行人机共驾中的与视觉相关的问题为目标,包括使用深度相机来进行单张RGBD图像的重建以及
柔性应变传感器是指采用柔性材料制成的传感器,具有良好的柔韧性、延展性、甚至可折叠性,而且结构形式灵活多样,可根据测量条件的要求任意布置,能够非常方便地对复杂的被测量
在重金属污染日趋严重的情况下,适用于各种现场检测的便携式重金属检测系统显得尤为重要。本论文在课题组前面多年的研究的基础上,参考CMCVs-HM便携式重金属检测仪器的经验,
图像显著性检测的目的是找到自然图像中最吸引人注意力的目标,为后续的图像处理提供便利,已经广泛应用于视觉跟踪、图像检索、语义分割等多个场景中。现有的图像显著性检测方
塔北隆起哈拉哈塘凹陷的东河塘组一直都被认为是寻找岩性地层圈闭油气藏的有利地区,东河砂岩段顶部也表现出明显的储层纵向非均质性,为寻找岩性圈闭提供了可能。因此迫切需要
近年来,随着人工智能的快速发展,自主移动机器人相关技术受到了广泛关注。研究移动机器人在未知环境中的定位方法,对提高其小型化、自主化、智能化具有重要意义。其中视觉传
内蒙古明水和大苏吉地区位于塔里木—华北板块(Ⅰ级)温都尔庙—西拉木伦古生代增生褶皱带(Ⅱ级)内,该区为华北大陆板块边缘增生带。研究该区的基础地质特征,分析其控矿地质条
海洋生物入侵已成为世界海洋生态环境面临的四大威胁之一,船舶压载水为外来生物入侵提供了途径和载体。为防止压载水中外来生物入侵,提高压载水的风险防控,国际海事组织(IMO)
随着无线通信技术的发展,移动通信网络产生的数据和能耗迅速增长,用户对提高传输速率和降低系统能耗提出了更高的要求。波束成形采用多天线技术,多天线技术具有改善信号质量