离线语音翻译技术

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:zmc02302
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年来,人工智能成为了研究的热点。随着全球经济一体化,世界各国之间的交流愈加频繁,语言差异一直是全球化、国际旅行之间的一道语言鸿沟,给不同语言的人们之间的交流带来了严重障碍。语音翻译作为人工智能中的一个重要领域可以打破语言壁垒,提高各国人们之间的沟通能力。语音翻译技术涵盖了语音识别、机器翻译以及语音合成三大技术。论文主要以语音识别技术和机器翻译技术为研究对象,实现离线语音翻译。传统的语音识别是以高斯混合模型与隐马尔可夫模型相结合(GMM-HMM)进行声学建模,该模型成熟且稳定性高。但是GMM模型是一种浅层模型,对大规模语料数据集的建模能力很难有所提升。随着深度学习的兴起,深度神经网络(DNN)利用其自身独特的结构对复杂数据有更加强大的学习和建模能力。论文对GMM-HMM、DNN-HMM两种声学模型进行深入研究,并搭建离线语音识别系统;同时对基于短语的统计机器翻译进行研究,最后与语音识别系统相结合,实现了一个中英离线语音翻译系统;主要完成如下工作:(1)对语音识别的各个模块进行独立研究。其中主要研究对象有语音信号预处理,声学特征提取,声学、语言模型以及解码等相关技术。(2)对语音识别的鲁棒性进行了研究,重点研究了语音抗噪技术。利用小波变换对非平稳语音信号处理时具有多分辨率的良好特性,提出了一种基于对数的小波阈值去噪语音增强算法。通过相应的去噪实验,并与其他算法进行对比,以此来验证改进算法的有效性。(3)分析了GMM模型与DNN的结构与训练方式,对声学建模进行研究。先以GMM-HMM作为语音识别的基线系统,依次以单音素和三音素为声学单元建模;然后在此基础上建立DNN-HMM声学模型,通过实验对比分析研究了两种模型的识别性能,实验结果表明DNN模型优于GMM模型,在音素错误率和词错误率上下降了5.66%和3.48%。最后搭建了离线语音识别系统,并且测试了识别效果。(4)研究了采用Mel频率倒谱系数(MFCC)声学特征和Mel滤波器组(Fbank)声学特征分别作为训练DNN模型的输入数据,通过训练建立相应的DNN-HMM声学模型,并比较两种特征对识别结果的影响,实验结果表明Fbank特征更适合DNN模型的训练。同时对Fbank声学特征的滤波器组数目进行了探索,通过改变滤波器组数目,研究其对识别结果的影响。(5)最后对基于短语的统计机器翻译进行了研究。通过对文本数据集进行训练得到翻译所需模型,结合离线语音识别系统完成最终离线语音翻译。
其他文献
针对营盘路湘江隧道东岸小净距段的施工,文章对管线的安全性进行了对比分析,分别模拟了地表未加固务件下、地表加固条件下,小净距段隧道施工对上覆土层中管线的影响。
液体火箭发动机是实现航天推进与空间探索的一种重要的动力装置。变推力液体火箭发动机与定推力液体火箭发动机相比能实现航天器推力的可控性,是空间飞行及探测任务的必备推
目的:探索纤维素酶法提取脱脂米糠中阿魏酸的最佳工艺。方法:以脱脂米糠为原料,乙醇-2%NaHCO3(95∶5,v/v)为提取剂,阿魏酸的提取率为考察指标,采用三因素二次旋转组合设计,考察了
朝鲜与明朝境内边疆民族建州女真的关系,是当时中朝两国政治关系的重要组成部分.朝鲜太宗王在位时期,为了拓展疆土,极力与明王朝争夺居于中朝边境地区的女真人的管辖权.这主
本文主要以对PVDF膜功能化改性为目的,主要讲述了两种不同的改性途径:添加亲水性的无机催化粒子以及在对膜高聚物进行亲水性改性从而得到Fe3O4/PVDF三通道中空纤维膜以及PVDF
【案情】$$原告史某建系冀F牌照小客车车主,该车辆在某保险公司投保了乘客座位车上人员责任险。2016年某日,史某建驾驶该车与高某驾驶的小客车相撞,导致同乘副驾驶史某雄被撞伤
报纸