论文部分内容阅读
近几年来,人工智能成为了研究的热点。随着全球经济一体化,世界各国之间的交流愈加频繁,语言差异一直是全球化、国际旅行之间的一道语言鸿沟,给不同语言的人们之间的交流带来了严重障碍。语音翻译作为人工智能中的一个重要领域可以打破语言壁垒,提高各国人们之间的沟通能力。语音翻译技术涵盖了语音识别、机器翻译以及语音合成三大技术。论文主要以语音识别技术和机器翻译技术为研究对象,实现离线语音翻译。传统的语音识别是以高斯混合模型与隐马尔可夫模型相结合(GMM-HMM)进行声学建模,该模型成熟且稳定性高。但是GMM模型是一种浅层模型,对大规模语料数据集的建模能力很难有所提升。随着深度学习的兴起,深度神经网络(DNN)利用其自身独特的结构对复杂数据有更加强大的学习和建模能力。论文对GMM-HMM、DNN-HMM两种声学模型进行深入研究,并搭建离线语音识别系统;同时对基于短语的统计机器翻译进行研究,最后与语音识别系统相结合,实现了一个中英离线语音翻译系统;主要完成如下工作:(1)对语音识别的各个模块进行独立研究。其中主要研究对象有语音信号预处理,声学特征提取,声学、语言模型以及解码等相关技术。(2)对语音识别的鲁棒性进行了研究,重点研究了语音抗噪技术。利用小波变换对非平稳语音信号处理时具有多分辨率的良好特性,提出了一种基于对数的小波阈值去噪语音增强算法。通过相应的去噪实验,并与其他算法进行对比,以此来验证改进算法的有效性。(3)分析了GMM模型与DNN的结构与训练方式,对声学建模进行研究。先以GMM-HMM作为语音识别的基线系统,依次以单音素和三音素为声学单元建模;然后在此基础上建立DNN-HMM声学模型,通过实验对比分析研究了两种模型的识别性能,实验结果表明DNN模型优于GMM模型,在音素错误率和词错误率上下降了5.66%和3.48%。最后搭建了离线语音识别系统,并且测试了识别效果。(4)研究了采用Mel频率倒谱系数(MFCC)声学特征和Mel滤波器组(Fbank)声学特征分别作为训练DNN模型的输入数据,通过训练建立相应的DNN-HMM声学模型,并比较两种特征对识别结果的影响,实验结果表明Fbank特征更适合DNN模型的训练。同时对Fbank声学特征的滤波器组数目进行了探索,通过改变滤波器组数目,研究其对识别结果的影响。(5)最后对基于短语的统计机器翻译进行了研究。通过对文本数据集进行训练得到翻译所需模型,结合离线语音识别系统完成最终离线语音翻译。