面向终端硬件的智能语音识别及其应用研究

来源 :电子科技大学 | 被引量 : 3次 | 上传用户:zzq19870114
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据、物联网、人工智能等科技领域的高速发展,通过语音进行人机交互正在成为新一代信息流入口。以智能音箱为代表的智能家居领域作为人工智能最佳的落地场景,相关的智能语音产品得到了广泛应用。现阶段的智能神经网络技术中,由于运算量大等特点,语音识别模型主要还是基于云端设计,这就限制了语音产品在终端的使用场景,而且数据上传到云端进行分析意味着用户的隐私得不到保证。当前大部分语音识别系统的识别率和实时性对于提升用户体验还有很大的进步空间,其主要还只是适用于娱乐消费领域。所以对于如何提升语音识别芯片的性能,让语音识别更好的为人们的生活工作领域服务,仍然有待进一步研究。因此,本文将研究方向定位于面向终端硬件的语音识别应用研究,以期在满足一定识别准确率的条件下降低运算量,从而适配硬件性能。本文的主要研究成果如下:(1)本文研究分析广泛应用于语音识别的长短时记忆神经网络LSTM和改进后的GRU模型的特点,在此模型基础上通过Google新发布的语音指令数据集speech_commands_v0.01中90%的数据,训练了用于实现语音识别的神经网络模型。(2)提出了结合数据类型、网络模型层数,隐藏单元数等参数对GRU网络模型性能进行优化的观点,以同等条件下普通LSTM架构作为参考,通过事先准备好的10%的Google语音数据集来测试验证不同参数条件下的网络模型的识别率和功耗性能。(3)为了进一步验证第(2)点中所述的优化方向在面向终端的硬件中同样适用,本文分析研究了当前主流的语音识别的芯片结构特点,设计了一套符合终端硬件要求的SOC框架,并通过FPGA对网络模型进行参数的仿真验证分析。实验结果表明,同样的参数配置下,改进后的GRU网络模型的运行速度比LSTM更快;LSTM和其改进后的GRU模型的识别率、功耗等性能会随着数据类型、网络模型层数,隐藏单元数等参数的变化而变化。当数据类型由int8变为int16,或者增加网络模型层数,或者增加隐藏层单元数时,网络模型的识别率会提高,占用的系统带宽也会相应增加。其中,当网络模型层数增加到5,或隐藏单元数增加到128时,本文的网络模型识别率最高,而功耗相对较低。
其他文献
镧系稀土离子具有独特电子层轨道,当与合适有机配体配位成配合物后,主要表现出以下光学特点:在可见光区有很强的发射能力、发射光谱宽、吸收能量的能力强、转化效率高,因此稀
Curry悖论1942年被Curry提出,起初并不是通常所研究的悖论形式而是针对早期组合子逻辑的不一致性。后来经Prior、Fitch的研究将其拓展至集合论悖论领域,而又经过Geach将其引申
我国是貂皮生产大国,但是貂皮质量还需要进一步提高。通过分析埋植褪黑激素与否的水貂冬季被毛的生长及形态学性状,为区别是否激素皮以及应用埋植褪黑激素获得优质毛皮提供参
近些年随着国家基础建设、重要工程、一带一路等项目的实施,以及城镇化进程的加速推进,水泥、干混砂浆产业以及相关建筑领域也得到了迅猛发展。干混砂浆运输车作为特种水泥、
本文研究了一个带有Holling-II型功能反应函数的宿主-兼性寄生虫模型,该模型通过引入兼性寄生蜂来控制潜叶虫(宿主)的入侵.研究结果表明,在不同的参数值下,模型会存在一个余
综述了青霉素、阿莫西林的产生、历史发展进程,阿莫西林的性状以及当今阿莫西林胶囊一些厂家占有的市场份额情况,近些年的销售情况,青霉素6-APA中间体的占有量。概述了仿制药
大气气溶胶作为大气的重要组成成分,对全球和区域气候变化、大气能见度以及人类健康等方面均有较大影响。气溶胶由于其粒径分布和混合状态等理化特性的不同,在大气中的传输、
目的探讨采用米索前列醇联合米非司酮终止妊娠并辅以有效护理效果。方法选取2013年6月~2014年6月我院收治的要求终止妊娠的患者32例,采取米索前列醇联合米非司酮终止妊娠并辅
随着科技的发展,非量测数码相机以其低廉的价格、灵巧、便携等特点在实际中得到了广泛的应用,但它没有准确地测定内方位元素的设施或提供这方面的数据,透镜组的排列没有进行
本论文的研究对改进安徽市场“奥威-经销商”的关系有积极意义,对提高锡柴奥威柴油机的销售量、提高奥威柴油机的市场占有率和改善奥威品牌形象有现实的指导意义。文章利用文献综述法,梳理了客户关系的国内外研究现状和市场营销相关理论。利用调查法、ABC分类法,对奥威柴油机安徽市场的主要经销商进行了分类,将其分为A、B和C类客户。利用系统分析法,剖析了奥威柴油机安徽市场的主要微观环境要素和宏观环境要素。通过统计