论文部分内容阅读
提取和选择最优的特征参数来表示语音信号对任何语音系统的设计都是一项非常重要的工作,它对语音识别系统的好坏起着关键的作用。在语音识别中,特征参数的提取一般是基于信号的短时平稳特性的,即通常假设语音信号在一短段范围内是稳态的。但实际上,语音中的爆破音、辅音和元音的过渡段等由于它们具有瞬时性和强随机性并不能认为是短时平稳的,因此,利用传统的特征参数提取方法时存在着一定的不足。 小波分析是近些年迅速发展起来的新兴学科,在图像处理、语音信号处理等领域有着广泛的应用。它具有多分辨分析的特点,是一种窗口大小固定不变,但其形状可以改变的时频局部化分析方法。很适合于探测正常信号中夹带的瞬变反常信号并分析其成分,被誉为分析信号的“显微镜”。 本文针对语音识别特征参数提取中存在的不足,引入了小波变换方法,提出了一种将传统的梅尔倒谱系数,其一阶差分和小波能量相结合的特征参数MFCC-DWE(MelFrequencyCepstrumCoefficient-DiscreteWaveletEnergy)。该方法首先对预处理后的每一帧语音信号进行梅尔倒谱系数的计算,提取出12维的系数,并求其一阶差分(12维);之后对这一帧语音信号进行不同分辨率下的二进离散小波变换,对每个分辨率下的近似系数计算其能量值,将各分辨率下的能量值作为一个特征向量,组成小波能量特征。最后对上述的三种特征分别进行矢量量化,作为一帧语音信号的特征进行训练识别,并给出了新特征参数理论上的分析。 最后,将结合的特征参数与未增加小波能量的特征参数进行对比实验,结果表明,新结合的特征参数优于传统的Mel倒谱系数,提高了系统的识别率。