基于三语平行语料的语义向量的机器翻译研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:ulysseschen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年深度学习在机器翻译上的应用已经获得人们的关注并取得与统计机器翻译可比甚至更好的成果。传统的机器翻译在深度学习上的应用都是用两种语言的平行语料来训练的,有时我们可以获得大量的三种或者多种语言的平行语料,可以同时训练两个或多个端到端的翻译系统,输入端是不同语种的平行语料,输出端是同一目标语料。由于不同的输入端是表示同一含义的不同语种的表达形式,本文猜测不同输入端编码得到的中间向量具有某种联系。本课题通过探索不同语种向量表示间的联系来达到提升机器翻译性能的目的。在本文的研究中,涉及三种平行语料,本文将其中两种平行语料作为源语言,剩余一种作为目标语言。本文的研究包含以下几个方面。(1)对比分析不同语种的平行源语言到同一目标语言在相同方法下的翻译性能。本文用同一个基于深度学习的机器翻译方法(NMT)训练了两个端到端的翻译系统,分别是中文到日文的翻译系统和英文到日文的翻译系统,综合考虑实验结果和NMT的原理,本文得出基于三语平行语料的语义向量的机器翻译研究的必要性。(2)基于向量拼接的机器翻译研究及其扩展研究。本文将分为三部分介绍。第一部分的研究中,本文得到一个新的语义表示向量,这个向量包含了来自两种源语言的中间向量,本文认为这个向量同时包含了两种源语言的信息,本文用这个新的向量来生成输出变量序列,即目标语言。但是在这个方法中,其中一种源语言到目标语言的翻译系统和另一种源语言到目标语言的翻译系统的参数不独立,因此在训练过程和测试过程中我们都需要输入两种平行的源语言才能完成。第二部分的研究中,希望通过中轴语翻译的方法,在系统参数独立的情况下,借助翻译性能较好的翻译系统来帮助提升翻译性能差的系统。第三部分的研究中把前两部分的研究内容相结合,本文仍然得到同时包含两种源语言信息的语义向量,但将基于向量拼接的机器翻译研究中的模型和中轴语翻译方法结合,使得在测试过程中只输入单语,本文仍然希望借助翻译性能好的翻译系统来提升翻译系统较差的翻译系统的性能。(3)基于向量相似的机器翻译研究。在该研究中,协同训练两个不同源语言到同一目标语言的翻译系统,由于两个翻译系统中源语言是平行语料,代表同一句话的语义,本文猜测这两种平行语料的中间向量具有一定的相似性,基于此,本文在协同训练过程中加入了约束条件,让输入端源语言的语义向量的距离接近,达到优化翻译系统的目的。在该研究中,两个系统的参数相互影响但独立,即模型一旦被训练好,在测试过程中只需要输入单语即可完成对应的测试。
其他文献
医患话语研究从七十年代开始首先在国外兴起,九十年代以来很多中国学者也积极从事医患话语研究,成果斐然。医患话语研究不仅增加了话语研究对象的多样性,还加深了我们对话语
采用解析法建立了一般情况下混合点近似直线机构综合的通用数学模型,并给出了方程中关键参数的求解方法。为避免机构综合过程中设计参数选取的盲目性,利用数值计算方法确定并
教师更正性反馈(Corrective Feedback)与学生理解回应(Uptake)是对外汉语课堂师生互动过程中的重要环节,受到国内外二语习得研究者的密切关注。更正性反馈方式的选择与偏误类
根据裂缝双侧向测井响应的特征,裂缝分3种状态:低角度裂缝、倾斜裂缝和高角度裂缝,给出了判断裂缝状态的方法;建立了裂缝的双侧向测井响应与裂缝孔隙度、裂缝内流体电导率、基岩电
阿尔茨海默病(Alzheimer disease,AD)是一种慢性中枢神经系统退行性疾病,其发病率高,确诊较晚,预后差,给家庭及整个社会带来沉重负担。MR扩散张量成像(diffusion tensor iamg
心理动词是指表示人类的感情、意向、认知、感受等心理活动、心理状态的动词,主要用于表达人的复杂的心理认知,在现代汉语里使用频率相当高。对于第二语言习得者来说,想要准
智能快递柜是智能快递物流发展最广泛的科技成果之一,如今智能快递柜行业市场规模快速扩大,资本大量涌入,然入局企业一直在亏损、盈利模式较难破局,本文通过分析快递柜的发展
本文以中高级哈萨克斯坦学生为调查对象,搜集了他们的写作、练习、作业以及口语表述作为语料,通过哈萨克语与汉语关联词语对比,归纳了哈萨克斯坦学生关联词偏误的类型,并且阐
教材是对外汉语教学的三大要素之一。随着我国对外汉语教学事业的不断发展与进步,教材建设与研究越来越引起对外汉语教学界的重视。教材的编写要以教学法为指导,随着教学理念
高级汉语精读教材的编写是对外汉语教材编写的重点,目前相关的研究不多,据查不足20篇,仍有对其进行深入研究的空间。为了使高级精读汉语教材的编写更具针对性,笔者主要运用文