论文部分内容阅读
孤立词识别是生活应用最广的应用于人们的日常生活之中,如智能家居,汽车导航,手机软件,学习机等,孤立词识别有着很好的市场前景和研究价值。在语音识别领域中,动态时间规整(DTW)技术基于马尔可夫模型(Hidden Markov Model)技术是被广泛应用的。随着近些年的研究深入,人工神经网络(Artificial Neural Network)在语音识别的应用成为了一种新的研究热门。对于HMM模型,它有极强的动态建模功能,所以对于动态性能的语音信号建模有着很好的优势,但对于模型的分类功能略显不足。在ANN模型中,输入输出映射能力的优势,让它处理模式分类和判决的问题能力强大,但在动态信号处理能力,它的不足也是显而易见的。本文针对两种模型的优缺点,提出基于HMM-ANN混合模型,来提高信号的处理能力,从而提高孤立词语音识别系统的识别率,而在ANN模型中,我们采用概率神经网络(PNN)。本文的主要工作包括以下几个部分:(1)分析了孤立词语音信号的预处理与特征提取的过程,重点讨论了线性预测倒谱系数(LPCC)和Mel频率倒谱系数(MFCC)两种语音特征提取方法。通过对孤立词语音信号的预处理和特征提取,为了得到了能表示语音信号本质的特征参数,并减少由于环境噪声和发音长短不均和强度不同等因素造成的语音识别率偏低,提出一种基于自适应谱熵的端点检测,通过实验对比传统双限门算法与谱熵算法,后者对于孤立词是别的抗噪能力有了明显提高。(2)通过对传统HMM模型的算法的深入研究,Viterbi算法对于孤立词识别运算复杂,且系统的计算量过高。对于Viterbi算法进行改进与优化,提出了一种基于门限设置来优化算法,对于计算模型输出的最优路径最优路径。优化后的模型算法对于系统的识别时间,识别率都有了一定的提高。(3)研究了语音识别的现状和原理,比较ANN和HMM各自的优缺点及不足,构建了HMM-ANN混合模型,通过MATLAB软件分别仿真实现了HMM,ANN,HMM-ANN这种三种模型的孤立词的语音识别功能。