基于计算听觉场景分析的语音预处理系统

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:QCLHQCLH
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现代通信技术的高速发展,空间环境、噪声以及干扰的类型都变得越来越复杂,语音信号往往会受到环境噪声的污染,造成语音质量的明显下降。传统的语音识别工具(例如IBM公司的ViaViove)对纯净语音的识别效果较为理想,然而,在低信噪比以及存在噪声干扰的移动环境下,这类语音识别系统的性能就会急剧下降。因此,如何提高移动环境下语音识别系统的抗干扰能力成为了当前亟待解决的一个问题。现有的语音识别技术大多都是单纯基于模式识别而不考虑对语音的净化,针对此问题,本文实现了一种基于计算听觉场景分析(CASA)的语音识别系统。与传统的方法不同的是,该识别系统在语音识别引擎前端添加了CASA的语音预处理模块以提高移动环境下语音识别正确率。本文基于CASA的预处理模块,通过使用互通道相关以及时域连续性等组合线索,将来自同一声源的听觉元素合并成听觉片段,从而将目标语音从噪声中分离出来。此外,本文利用隐马尔可夫模型工具包(HTK)来构建一中文语音数据库,并通过端点检测的方法对数据库中的语音进行Mel频率倒谱系数(MFCC)特征的提取。最后,利用参数重估算法结合语音的MFCC特征进行语法训练,得到了一个隐马尔可夫模型(HMM),并以该HMM模型为基础搭建基于CASA的语音识别系统,即CASA语音识别系统。为了验证所提算法的有效性,仿真实验设定了两种类型噪声,即马路噪声和室内咖啡馆噪声。并在不同信噪比的环境下,验证CASA语音识别系统对噪声的鲁棒性。仿真结果表明,对比现有的语音识别系统,本文所提出的CASA语音识别系统具有更强的鲁棒性,保证了在低信噪比环境下语音识别的正确率。
其他文献
随着信息时代的到来,作为计算机通信、信息存储、internet网络传输等信息技术的关键环节,图像压缩编码算法的研究是当今信息技术里最活跃的研究领域之一,尤其是进入21世纪以后,微
JPEG2000压缩标准不仅被应用于数码照相机和扫描仪中,也被广泛应用于网络和无线通信领域。然而由于该压缩标准具有较高复杂度,目前该压缩标准的硬件实现方面在国内仍存在很大的