论文部分内容阅读
语音识别是一门内涵丰富,应用广泛的技术,它的实用性和趣味性使得人们对它有着迫切的应用需求。在语音识别系统中,隐马尔可夫模型是当前最为流行的语音识别模型,占据着主导地位。HMM模型之所以应用较为成功,主要是它具有较强的对时间序列结构的建模能力,尽管如此,HMM技术也存在一些缺点,如:决策分类能力弱,需要语音信号的先验统计知识等。人工神经网络方法作为模拟人脑思维机制的工程模型,它与HMM正好相反,其分类决策能力和对不确定事物的描述能力已得到举世公认,但它对动态时间信号的描述能力尚不尽如人意。本论文在介绍HMM模型和人工神经网络的基本原理的基础上,将两种方法有机结合,进一步提高语音识别的准确率。
对于含噪语音信号的有效特征提取是语音识别至关重要的一步。本论文首先介绍了在语音识别中最常用的两种特征参数:基于发声系统模型导出的线性预测倒谱系数、基于听觉系统模型导出的Mel频率倒谱系数,而这两种特征参数在纯净语音下识别效果比较好,但是在噪声环境下识别效果不尽如人意。接着提出利用小波变换对含噪语音信号进行去噪的方法,再经Mel滤波器组转换为Mel频率下的倒谱系数,这种新的特征参数进一步反映了语音信号的动态特性、增强抗干扰能力,从而提高了识别率。
提出了用隐马尔可夫和人工神经网络混合模型对语音信号进行识别的方法,即有效的运用了经典HMM模型对动态时间序列较强的建模能力,又充分利用了人工神经网络较强的分类决策能力。实验证明,该模型适合于对噪声背景下的语音进行识别,同经典的HMM模型相比较,具有更好的抗噪鲁棒性,在信噪比较低的情况下,识别率比经典的HMM模型有明显的提高。