基于视听信息融合的语音识别研究

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:zxc00663340
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,基于多模态信息的语音识别系统逐渐成为研究热点。单纯依赖单模的声音信息的语音识别在无噪音环境的条件下性能较好,然而,当存在噪声或频率干扰时,其识别性能将大大降低。多模态信息可以提高对语音的感知和理解,应用视觉信息可以有效对抗环境中噪音的干扰。为了提高噪音环境中语音识别的准确性和鲁棒性,本文提出了基于语音与视觉信息融合语音识别方法。本文是在概述语音识别相关学术文献与动态的基础上,以噪声环境下自动语音识别研究为背景,建立了视听信息决策融合模型。首先,本文详述了信息融合的基本原理,分析并比较了多源信息融合的三种层次结构及主要的信息融合方法,研究了隐马尔可夫模型(HMM)在语音识别中的基本算法及语音识别的系统结构。然后,通过分析比较视听信息融合技术在特征层融合和决策层融合方法上的优缺点,提出了基于隐马尔可夫统计模型基础上的视听信息决策融合模型,此模型主体构造由两个HMM分别处理视听信息中观察值序列,同时该模型在音频模式或视频模式下也能进行识别,使它们之间具有保持内在的依赖关系。另外,本文通过采用一种加权融合策略,解决噪声导致HMM的训练与测试不匹配问题。最后通过实验验证表明视听信息决策融合模型比建立在该模型基础上的纯音频自动语音识别以及纯视频自动语音识别的性能更优,并且通过与现有的抗噪声相关方法的对比分析,得出此模型能有效克服噪声,提高识别准确率。
其他文献
使用SG-GL1400K型真空热处理炉对冷轧N6纯镍板进行了退火处理,温度分别为350、400、450、500、550℃,保温持续时间1 h后炉冷至150℃再空冷至室温。对退火后N6纯镍板的显微组
摘 要:军民融合发展是一场长期的综合领域改革创新,首先分析了长沙促进军民融合发展的形式,进而分析了存在问题,最后从协同创新视角提出发展对策。  关键词:协同创新;军民融合;对策  中图分类号:F2 文献标识码:Adoi:10.19311/j.cnki.1672-3198.2018.28.002  1 发展的形式  国民经济动员和军民融合发展是兴国之举,也是强国之策。目前,长沙正立足“一带一路”重要
DSA血管三维重建技术作为有力的辅助手段能够弥补DSA设备在成像上的不足,能够为用户提供具有真实感的血管三维空间信息,便于医生从多角度、多层次对病灶进行观察和分析.该技
本文介绍了目前主流的几种P2P流量检测技术,并分析了它们的优缺点,最后通过对数据挖掘技术和关联规则的介绍,提出了一种通用的P2P流量检测技术方法,该方法通过对网络数据流的