论文部分内容阅读
语音识别是一门交叉学科,涉及数字信号处理、人工智能、计算机科学和数学模型等许多学科领域,它是目前发展最为迅速的信息研究领域之一。随着人们的需求以及嵌入式芯片和移动终端设备等技术的不断发展,使得语音识别系统,尤其是非特定人的孤立词语音识别系统,越来越多的应用到我们的日常生活中(比如手机的语音拨号,汽车上的语音导航等),为我们带来了极大的便利。本文针对小词汇量、非特定人的孤立词语音识别进行了深入研究,主要的工作包括:提出了一种基于短时平均幅度增量和短时平均过零率的语音端点检测方法,该方法利用语音的短时幅度的连续上升做出第一级判决,以短时平均过零率为特征做出第二级判决。实验结果表明,在信噪比理想的情况下,该方法准确,简单,可靠。研究了语音识别中的几种特征提取算法:基于人的发音模型的线性预测系数(LPC)、线性预测倒谱系数(LPCC)和基于人耳听觉特性的梅尔频率倒谱系数(MFCC),并且列出了几种提高梅尔频率倒谱系数性能的方法。针对孤立词语音识别,本文研究了动态时间规整(DTW)和隐马尔科夫模型(HMM)算法。对于DTW算法,介绍了动态规划(DP)技术和松弛端点的DTW算法。在介绍隐马尔科夫模型时,从其概念入手,介绍了它的三个基本问题及其解法和连续隐马尔科夫模型。在对语音识别技术深入研究的基础上,提出了一套构建小词汇量非特定人的孤立词语音识别系统的算法方案,并在Matlab环境中实现了对语音识别系统的仿真;详细介绍了在实现系统的过程中所遇到的问题和解决问题的方法,并在最后通过实验对系统的性能进行了验证。该语音识别系统主要包括:语音信号的预处理(其中包括:预加重,归一化,分帧加窗和本文提出的端点检测算法),改进的梅尔倒谱系数的特征提取算法和连续型的隐马尔科夫模型识别几个部分。