论文部分内容阅读
语音识别技术的发展和进步历程是理论指导实践的过程。在言语工程方面,无论是语音识别还是语音合成技术,需要语言学家和计算机技术人员共同合作才得以完善。 随着少数民族地区的经济、教育等领域的发展对蒙古语语音识别技术的产生有了迫切需求的同时在大环境之下,语音识别技术在商业应用上已经很是火热。就蒙古语语音识别研究工作来讲,仍存在着诸多难点。在技术和研究思路上,要借鉴汉语、英语等语言的主流研究思路,结合蒙古语自身特点,对蒙古语语音识别进行深入系统的研究迫在眉睫。本文在蒙古语语音识别研究中利用语言学以及蒙古语语音学的相关学科研究成果,对蒙古语语音进行研究,从而探索如何提高蒙古语语音识别性的潜在原因,为改进蒙古语语音识别系统的“识别率低,鲁棒性差”的这一难点提供参考依据。 本文的研究工作主要有一下几点: 一、构建了蒙古语标准音语音资源库,其中构建了蒙古语标准音语音库36小时和蒙古文发音词典4.5万单词,并在此基础上建立了基于深度神经网络的蒙古语语音识别系统。系统的声学模型采用了DNN-HMM模型、语言模型采用了基于词的3-gram语言模型。 二、根据蒙古语形态变化,探讨了蒙古语词法规则,实现了基于规则的蒙古语词切分方法,并对基于规则的词切分和基于统计的词切分方法进行了对比,提出了一种规则和统计相结合的词切分方法。 三、针对蒙古语自身特点,在蒙古语语音语料库基础上,探讨蒙古语语音识别系统面临的OOV问题。为了缓解OOV问题,本文中基于蒙古文的构词特点,利用一种规则和统计相结合的词切分方法,建立了采用词干与后缀建模的单位识别方法,并且提出了对词干后缀的发音词典和语言模型的建立方法。 四、蒙古语元音弱化、脱落、增音、异化等语音现象对语音识别性能产生了一定的影响,本文着重分析蒙古语语音识别中的发音变异现象,在应用专家知识和数据驱动融合的形式进行细致的分析,并利用混淆矩阵对蒙古文音素对语音识别中的错误结果进行了系统地分析,这一工作对蒙古语语音识别的发音词典的建立和优化提供了理论依据。 五、从蒙古语发音特征的角度进行探究,实现了基于迁移学习的蒙古语语音识别系统,迁移学习实验分别在汉语、英语、维吾尔语等三种语言上进行,其中30小时的中文普通话数据集,15小时、360小时和460小时的英文数据集,20小时的维语数据集。实验结果表明,迁移学习方法对蒙古语语音识别的性能提升有一定的帮助,其中维吾尔语的迁移学习对蒙古语音识别的性能提升最为明显。