论文部分内容阅读
近年来,基于多模态信息的语音识别系统逐渐成为研究热点。单纯依赖单模的声音信息的语音识别在无噪音环境的条件下性能较好,然而,当存在噪声或频率干扰时,其识别性能将大大降低。多模态信息可以提高对语音的感知和理解,应用视觉信息可以有效对抗环境中噪音的干扰。为了提高噪音环境中语音识别的准确性和鲁棒性,本文提出了基于语音与视觉信息融合语音识别方法。本文是在概述语音识别相关学术文献与动态的基础上,以噪声环境下自动语音识别研究为背景,建立了视听信息决策融合模型。首先,本文详述了信息融合的基本原理,分析并比较了多源信息融合的三种层次结构及主要的信息融合方法,研究了隐马尔可夫模型(HMM)在语音识别中的基本算法及语音识别的系统结构。然后,通过分析比较视听信息融合技术在特征层融合和决策层融合方法上的优缺点,提出了基于隐马尔可夫统计模型基础上的视听信息决策融合模型,此模型主体构造由两个HMM分别处理视听信息中观察值序列,同时该模型在音频模式或视频模式下也能进行识别,使它们之间具有保持内在的依赖关系。另外,本文通过采用一种加权融合策略,解决噪声导致HMM的训练与测试不匹配问题。最后通过实验验证表明视听信息决策融合模型比建立在该模型基础上的纯音频自动语音识别以及纯视频自动语音识别的性能更优,并且通过与现有的抗噪声相关方法的对比分析,得出此模型能有效克服噪声,提高识别准确率。