基于深度学习的语音识别研究

被引量 : 64次 | 上传用户:FalyE981521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
进入移动互联网时代,语音识别作为实现人机自由交互的关键技术,值得深入研究。同时面对大数据的挑战,由于深度学习能够从海量数据中挖掘有效信息,成为模式识别领域的一个研究热点。以深度学习理论为基础,对语音识别进行研究具有理论意义和实用价值。深度学习本质上是一种采取多层非线性变换的信息提取技术,通过其层次化的特征结构,从而实现对数据间复杂关系的建模。本文首先介绍了语音识别的基本原理及研究现状,详细阐明深度学习的基础理论及其网络模型,然后着重就如何将深度学习理论更好地应用于语音识别中展开研究。1、研究了基于深度自动编码器的声学特征提取方法良好的声学特征对于语音识别系统的性能至关重要。本文就深度自动编码器的基本原理展开,分别从声学特征预处理、网络结构包括隐含层层数和节点数以及网络并行训练算法等几个方面作了较深入的探讨;在Matlab平台上构建基于语音特征的自动编码器,分别利用无监督和有监督的训练方式从原始MFCC特征中提取鲁棒性更强的语音特征;最后通过HTK语音识别框架对863汉语语音库进行测试,基于无监督和有监督提取的新特征和原始特征相比,在词识别正确率方面分别提高了1.96%和3.53%。2、研究了基于DNN-HMM的声学建模方法声学模型是语音识别系统不可或缺的组成部分。本文通过分析深度神经网络和高斯混合模型在结构和训练方式的异同,阐述了DNN用于描述HMM状态输出概率分布的可行性;在Kaldi开源语音识别平台上分别实现了基于GMM-HMM和基于DNN-HMM的声学模型建模,并在RM语音库上通过实验证明了应用DNN-HMM模型比GMM-HMM模型的识别系统在词识别错误率上相对下降30%。
其他文献
农业是国民经济的基础,是人类的衣食之源,生存之本。我国是农业大国,拥有五千年的农业发展史,自刀耕火种的原始农业起,历经“精耕细作”的传统农业、“工业化”农业不同阶段,
【研究背景及目的】肝前体细胞(Hepatic progenitor cell, HPC)是损伤肝脏中出现的一种具有双向分化潜能的细胞,可向肝细胞和胆管上皮细胞分化参与肝再生。在慢性肝病状态下,HPC
应充分认识加强高等学校哲学社会科学研究的重要意义,政府各级哲学社会科学研究管理机构要统一哲学社会科学的研究范围和学科分类,各高等学校要切合学校实际解决好科研管理机构
利益是人类社会生活中最敏感的神经。纵观人类社会发展的历史进程,可以发现,利益关系是人类社会关系中最核心最本质的关系。利益关系的协调关系着每个社会成员的切身利益,也关系
背景及目的:肝癌是世界上最常见的恶性肿瘤之一,其发病率呈现逐年上升趋势,且致死率极高。全身化疗作为中晚期肝癌患者的重要治疗手段之一,其疗效并不理想,主要原因是肝癌的多药耐
为支持农村金融发展,解决农民贷款难的问题,2010年5月13日财政部、国家税务总局出台了《关于农村金融有关税收政策的通知》(财税[2010]4号文件),临江市农村信用联社依据政策落实了
短时交通流预测是道路交通控制系统、交通流诱导系统等领域需要解决的首要问题之一。目前,交通流量分析与预测已经成为交通工程领域重点研究的课题,同时也是智能运输系统的核
目的:通过腹腔注射丹参酮ⅡA,观察其对神经病理性疼痛模型(SNL)大鼠疼痛行为学和脊髓高迁移率族蛋白1(HMGB1)、Toll样受体4(TLR4)和炎症相关介质如肿瘤坏死因子-α (TNF-α)、
四种不同的甲基丙烯酸酯:甲基丙烯酸甲酯(MMA)、甲基丙烯酸乙酯(EMA)、甲基丙烯酸丁酯(BMA)、甲基丙烯酸己酯(HMA)接枝改性常见的生物高分子,包括碳水化合物(淀粉)、蛋白质(大豆蛋白)、家禽
数据大集中、业务大集中是企业信息化的趋势,而信息系统支撑着企业运营的每个流程和环节。信息系统在给人们带来巨大便利的同时,也面临着信息安全方面的挑战。信息安全风险检