基于计算听觉场景分析的语音预处理系统

论文部分内容阅读

随着现代通信技术的高速发展，空间环境、噪声以及干扰的类型都变得越来越复杂，语音信号往往会受到环境噪声的污染，造成语音质量的明显下降。传统的语音识别工具(例如IBM公司的ViaViove)对纯净语音的识别效果较为理想，然而，在低信噪比以及存在噪声干扰的移动环境下，这类语音识别系统的性能就会急剧下降。因此，如何提高移动环境下语音识别系统的抗干扰能力成为了当前亟待解决的一个问题。现有的语音识别技术大多都是单纯基于模式识别而不考虑对语音的净化，针对此问题，本文实现了一种基于计算听觉场景分析（CASA）的语音识别系统。与传统的方法不同的是，该识别系统在语音识别引擎前端添加了CASA的语音预处理模块以提高移动环境下语音识别正确率。本文基于CASA的预处理模块，通过使用互通道相关以及时域连续性等组合线索，将来自同一声源的听觉元素合并成听觉片段，从而将目标语音从噪声中分离出来。此外，本文利用隐马尔可夫模型工具包（HTK）来构建一中文语音数据库，并通过端点检测的方法对数据库中的语音进行Mel频率倒谱系数（MFCC）特征的提取。最后，利用参数重估算法结合语音的MFCC特征进行语法训练，得到了一个隐马尔可夫模型（HMM），并以该HMM模型为基础搭建基于CASA的语音识别系统，即CASA语音识别系统。为了验证所提算法的有效性，仿真实验设定了两种类型噪声，即马路噪声和室内咖啡馆噪声。并在不同信噪比的环境下，验证CASA语音识别系统对噪声的鲁棒性。仿真结果表明，对比现有的语音识别系统，本文所提出的CASA语音识别系统具有更强的鲁棒性，保证了在低信噪比环境下语音识别的正确率。

其他学术论文