论文部分内容阅读
神经机器翻译成为当前机器翻译的主流方向,在语料资源丰富的语言对上达到了极高的性能,但是在汉-缅这种低资源语言对上应用还不太成熟。在汉缅神经机器翻译中,译文存在词语表规模受限问题,出现较多词表没有覆盖的词语和低频词,这些词语被称为未登录词。引入双语词典这类外部知识对于对于汉缅机器翻译中的未登录词问题有很大的帮助。针对双语词典在汉缅神经机器翻译中的融合,论文主要完成了以下研究工作:(1)基于CNN-Corr Net网络的汉缅平行句对抽取方法构建双语平行语料库是提升低资源语言的机器翻译质量的一种有效方法,为训练神经机器翻译模型提供数据基础。本文提出了基于CNN-Corr Net网络的汉缅平行句对抽取方法。具体而言,首先利用BERT得到汉语、缅语词向量,再将汉语、缅语两种语言句子用卷积神经网络进行句子表征,以捕捉句子重要特征信息;然后为了保证两种语言跨语言表征的最大相关性,利用已有的汉缅平行句对作为约束条件,使用Corr Net(相关神经网络)将汉缅的句子表征投影到公共语义空间;最后计算公共语义空间中汉语、缅语句子距离,并根据距离判断汉-缅双语句子是否为平行句子。实验结果表明,相比最大熵模型、孪生网络模型,本文提出的方法F1值分别提升了13.3%、5.1%。(2)基于半监督学习的汉缅双语词典构建方法双语词典是解决未登录词问题的重要知识特征,但现有双语词典构建工作大都依赖于大规模的平行语料库。缅甸语属于低资源语言,为减少双语平行语料的约束,本文提出了一种半监督学习方法,利用了双语词嵌入空间的结构相似性,在迭代自学习构建双语词典的基础上用候选集合的上下文特征作为约束实现仅需小规模的双语种子词典从可比语料中抽取大规模的双语词典。具体地,本文在汉缅双语可比语料的基础上,使用小规模的种子词典通过迭代自学习的方法学习双语跨语言映射关系,得到汉缅双语候选集合,又将这些集合的上下文特征作为约束,抽取到质量更高的双语词典。实验结果表明,本文的方法抽取1个候选词时的准确率为47.69%。(3)融合双语词典的汉缅神经机器翻译方法当前低资源语言神经机器翻译中面临未登录词的问题,未登录词影响翻译的质量,引入外部知识对于解决资低资源机器翻译的未登录词问题有很大的帮助。因此本文提出融合双语词典的汉缅神经机器翻译方法。在传统基于注意力机制的神经机器翻译模型的基础上学习双语词软对齐关系,然后通过对数线性模型将现有的双语词典知识进行表征,得到统计词对齐信息,最后模型在训练阶段,通过约束机器翻译模型本身的双语词软对齐关系和先验双语词典表征的统计词对齐信息保持同分布,进而达到基于后验正则化的双语词典融合的目的。实验结果表明,本文的方法能有效将双语词典融入到汉缅神经机器翻译中,从而解决汉缅神经机器翻译中的未登录词问题。(4)汉-缅神经机器翻译原型系统基于上述相关理论研究,构建汉-缅神经机器翻译原型系统。该系统的模块包括了句子输入/输出模块、未登录词处理模块、神经机器翻译模块等。