基于深度学习的大词汇量连续语音识别的研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:badgod
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动语音识别的主要目的是让机器可以“听懂”人们说话的内容,并将语音信号转化为文本信息,能实现人类与机器之间快速、无障碍的交流。近年来,随着深度学习技术的广泛应用,DNN-HMM语音识别架构逐渐取代了传统的GMM-HMM语音识别架构,成为当前大词汇量连续语音识别系统的主流架构。本文以深度学习为基础,从特征提取和声学模型两个方面展开深入研究,具有较高的理论意义和研究价值。首先,阐述了语音识别技术的国内外研究现状,介绍了深度学习理论基础和语音识别关键技术,对基于深度学习的大词汇量连续语音识别系统的整体方案进行了设计。着重分析原始声学特征提取和DNN-HMM声学模型存在的不足之处,明确本论文研究的关键技术是语音特征提取和声学模型优化。其次,针对MFCC、Fbank、瓶颈特征等常用语音特征对语音前后帧相关性信息提取不足导致识别率不高的问题,提出一种基于重叠组套索稀疏深度神经网络的语音瓶颈特征提取改进方法。该方法利用重叠组套索算法对DNN进行改进,并从MFCC声学特征中提取到具有语音相关性信息的语音瓶颈特征。实验结果表明,利用DNN得到的语音瓶颈特征与原始的MFCC相比,语音识别率得到显著提高。然后,为解决DBLSTM中常出现的梯度消失和模型过拟合问题,提出利用Maxout神经元和Dropout正则化算法改进DBLSTM-HMM声学模型。为适应DBLSTM对语音信息每个时间步长的双向依赖性,进一步提出利用CSC-BPTT训练算法训练DBLSTM神经网络。实验结果表明本文改进的DBLSTM-HMM声学模型优于DNN-HMM、RNN-HMM等典型的声学模型,语音识别性能得到较大的提高。最后,利用本文改进的语音特征提取方法和声学模型构建基于DBLSTM-HMM的大词汇量连续语音识别系统,并在THCHS-30中文语料库和自制语料库中进行实验验证和分析。实验结果表明,本文建立的语音识别系统与传统的基于DNN-HMM的语音识别系统相比,WER低7.44%,系统泛化能力更强,语音识别率更高。
其他文献
11月12日至15日,中国电机工程学会年会在北京国家会议中心隆重召开,会议由中国电机工程学会主办,国家电网有限公司和中国大唐集团有限公司联合主办。亨通电力产业集团作为受
关汉卿杂剧用语雅俗兼备,词汇量丰富,不少学者已做过词语研究工作,大致可分为文献校注类、辞书训释类、专著论文类三种。这些研究成果丰硕,但系统、全面对关汉卿杂剧词语进行研究