论文部分内容阅读
由于实际应用的声学环境非常复杂,存在环境噪声、远场、窄带等多种干扰因素,语音信号易受到这些因素的影响而发生变异,导致传统基于听觉模态的自动语音识别(Automatic Speech Recognition,ASR)系统的性能下降,不能满足实际应用需求。人类言语交流行为的研究发现,人类大脑对言语的理解不仅仅依赖于声音,而是会结合视觉通道信息,如嘴唇发音运动轨迹,交互并发处理后得出合理的一致的解释。另有研究表明,视觉信息和听觉信息具有互补性,在复杂声学环境下,视觉信息的互补部分会明显提高语音的感知性能,符合人类的双模态感知方式。此外,大量研究表明,基于双模态的视听语音识别(Audio-Visual Speech Recognition,AVSR)系统在很多实际应用中均优于ASR系统。因此,AVSR系统已逐渐成为研究热点。然而,AVSR系统在实际环境中仍存在应用瓶颈。一方面,建立一个鲁棒的AVSR系统需要大量的视听觉训练数据,而对比广泛可用的语音数据,视听并行数据大量采集代价昂贵。另一方面,使用传统的AVSR系统进行识别时,需要同时输入视听并行数据,但在多数实际使用环境中只有语音数据可用,缺少视觉信息。这些问题阻碍了AVSR系统的广泛应用。因此,本文针对上述问题,构建一种新型的AVSR系统框架,通过在语音识别系统声学建模时加入自动生成的视觉信息,从而提升其在复杂声学环境中的鲁棒性。本文的主要研究成果和贡献如下:(1)提出一种基于卷积神经网络(Convolutional Neural Network,CNN)的视听融合方法。利用独立的CNN结构,实现视听觉的独立建模和异步性信息传递,并获取视听并行数据在高维特征空间中的描述;然后通过紧随其后的共享全连接结构,实现在更高维度中对视听并行数据的长时间依赖关系进行建模。实验表明,对比传统的视听融合方法,使用基于CNN的视听融合方法建立的AVSR系统能获得显著性能提升,其识别错误率相对下降约15%。本文所提出的视听融合方法可针对视听并行数据之间的独立性、异步性以及长时相互依赖性进行建模,对于基于深度学习的视听融合方法的进一步研究具有重要意义。(2)提出一种基于视觉特征生成的双模态建模方法。使用有限的视听并行数据,结合基于双向长短时记忆网络(Bi-directional Long Short-Term Memory Recurrent Neural Network,BLSTM-RNN)的方法,构建听觉特征到视觉特征的生成模型;然后利用该生成模型自动生成大量视觉特征,结合基于CNN的视听融合方法,进行双模态建模。实验表明,当生成模型的训练和测试声学环境一样,只需使用少量的视听并行数据,结合所提出的基于视觉特征生成的双模态方法,可建立一个鲁棒的AVSR系统,其识别错误率较基线系统相对下降约11%。基于视觉特征生成的双模态方法可有效解决实际使用环境中的视觉信息缺失问题。(3)提出一种基于多层级自适应深度网络的跨域自适应方法。实际语音数据与视听并行数据的域不匹配问题将导致不可靠的视觉特征产生,最终引起识别系统性能下降。为此,本文提出一种新型的跨域自适应方法:通过多层级自适应深度网络,获取与实际使用环境匹配的声学特征描述;然后使用这些特征描述作为生成模型的额外输入以缓解域不匹配问题,实现由广泛可用的实际语音数据自动生成大量可靠的视觉数据。实验表明,由于域不匹配问题的存在,视觉特征生成方法直接应用于AVSR系统,并不能提升系统鲁棒性;而结合跨域自适应方法训练得到的语音识别系统能获得显著的性能提升,其识别错误率较基线系统相对下降10%以上。该方法首次应用于AVSR领域,降低了传统AVSR系统对大量视听并行数据的依赖性,使得AVSR系统可在只有语音输入情况下使用,推广其实际可应用性。