论文部分内容阅读
在噪声环境下的语音识别鲁棒性算法研究是当今主流语音识别系统中最重要的研究课题之一。虽然当前的语音识别系统在实验室环境下已经取得了令人满意的成果,但是实际使用情况下,语音识别系统的识别率受不同类型的噪声干扰相比实验室环境将有非常大的减低。在这一背景下,本文围绕如何在噪声环境下对语音声学模型进行针对性的补偿,使得它更加吻合加噪语音的分布规律从而提高语音识别系统识别率这一研究方向,进行了较系统而深入的研究。并且在模型参数补偿算法、声学模型训练算法等方面都有一定的创新。首先,本文介绍了我们所提出一种新的语音声学模型在噪声环境下的参数补偿算法—UT变换补偿算法。针对声学模型参数在噪声环境下非线性变化的补偿问题,现在国际上广泛使用的PMC和VTS声学模型参数补偿算法只能达到其线性展开的一阶近似,所以本文通过使用自动控制领域用来提高扩展卡尔曼滤波器性能的称作Unscented Transformation(简称UT)的技术,可以达到对声学模型参数非线性变化的二阶近似,得到的声学模型参数更加精确。在对声学模型静态参数的补偿过程中,我们提出了多种不同的使用UT变换算法的工程实现方法,其中效率最高的实现方法相对于传统的UT变换实现方法效率提升了6倍以上,最终实验结果证明其相对于传统的VTS方法具有明显的优势。其次,我们尝试将UT变换补偿算法进一步扩展到对声学模型动态参数的补偿工作中来。语音特征信号中动态特征复杂的计算方法使对于声学模型中动态参数进行补偿变的非常复杂。在本文中,我们通过严格的数学推导获得了准确的动态参数非线性变化函数,并利用UT变换补偿算法进行补偿。实验结果表明,UT变换补偿算法的优势得到充分发挥,进一步提高系统性能。最后,受到语音识别领域最近几年在说话人自适应训练方面不断取得进展的启发,本文第一次提出了基于噪声环境下模型参数补偿算法的模型自适应训练算法。在本文中,针对我们在模型参数补偿过程中所使用的VTS算法,利用使补偿以后的声学模型针对带噪语音数据似然度最大的准则,将待补偿的声学模型直接训练出来,从而在最终的模式识别中取得更好的结果。噪声补偿模型自适应训练方法是一种较好的将非线性变化补偿算法的误差吸收到声学模型自身中去的训练方法。实验表明,该算法显著降低了语音识别系统的识别错误率,并且已经成为现在噪声环境下语音声学模型训练的基本方法之一。