融合双语词典的汉缅神经机器翻译方法研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:liujmjm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
神经机器翻译成为当前机器翻译的主流方向,在语料资源丰富的语言对上达到了极高的性能,但是在汉-缅这种低资源语言对上应用还不太成熟。在汉缅神经机器翻译中,译文存在词语表规模受限问题,出现较多词表没有覆盖的词语和低频词,这些词语被称为未登录词。引入双语词典这类外部知识对于对于汉缅机器翻译中的未登录词问题有很大的帮助。针对双语词典在汉缅神经机器翻译中的融合,论文主要完成了以下研究工作:(1)基于CNN-Corr Net网络的汉缅平行句对抽取方法构建双语平行语料库是提升低资源语言的机器翻译质量的一种有效方法,为训练神经机器翻译模型提供数据基础。本文提出了基于CNN-Corr Net网络的汉缅平行句对抽取方法。具体而言,首先利用BERT得到汉语、缅语词向量,再将汉语、缅语两种语言句子用卷积神经网络进行句子表征,以捕捉句子重要特征信息;然后为了保证两种语言跨语言表征的最大相关性,利用已有的汉缅平行句对作为约束条件,使用Corr Net(相关神经网络)将汉缅的句子表征投影到公共语义空间;最后计算公共语义空间中汉语、缅语句子距离,并根据距离判断汉-缅双语句子是否为平行句子。实验结果表明,相比最大熵模型、孪生网络模型,本文提出的方法F1值分别提升了13.3%、5.1%。(2)基于半监督学习的汉缅双语词典构建方法双语词典是解决未登录词问题的重要知识特征,但现有双语词典构建工作大都依赖于大规模的平行语料库。缅甸语属于低资源语言,为减少双语平行语料的约束,本文提出了一种半监督学习方法,利用了双语词嵌入空间的结构相似性,在迭代自学习构建双语词典的基础上用候选集合的上下文特征作为约束实现仅需小规模的双语种子词典从可比语料中抽取大规模的双语词典。具体地,本文在汉缅双语可比语料的基础上,使用小规模的种子词典通过迭代自学习的方法学习双语跨语言映射关系,得到汉缅双语候选集合,又将这些集合的上下文特征作为约束,抽取到质量更高的双语词典。实验结果表明,本文的方法抽取1个候选词时的准确率为47.69%。(3)融合双语词典的汉缅神经机器翻译方法当前低资源语言神经机器翻译中面临未登录词的问题,未登录词影响翻译的质量,引入外部知识对于解决资低资源机器翻译的未登录词问题有很大的帮助。因此本文提出融合双语词典的汉缅神经机器翻译方法。在传统基于注意力机制的神经机器翻译模型的基础上学习双语词软对齐关系,然后通过对数线性模型将现有的双语词典知识进行表征,得到统计词对齐信息,最后模型在训练阶段,通过约束机器翻译模型本身的双语词软对齐关系和先验双语词典表征的统计词对齐信息保持同分布,进而达到基于后验正则化的双语词典融合的目的。实验结果表明,本文的方法能有效将双语词典融入到汉缅神经机器翻译中,从而解决汉缅神经机器翻译中的未登录词问题。(4)汉-缅神经机器翻译原型系统基于上述相关理论研究,构建汉-缅神经机器翻译原型系统。该系统的模块包括了句子输入/输出模块、未登录词处理模块、神经机器翻译模块等。
其他文献
学位
学位
学位
学位
环境污染造成的侵权行为不仅会造成受害人财产损失,还可能带来严重的人身损害,其中包括精神损害。依据现行法律规定,由环境侵权造成的受害人精神损害,人民法院予以支持。但是,基于环境侵权的特殊性,一般的精神损害赔偿规定是否可以不加以区分同样适用环境侵权纠纷,精神损害结合环境侵权是否具有独特的界定方式,值得疑问。本文分为四章,从环境侵权中精神损害赔偿的界定出发,以司法适用的角度切入现状及困境,从而探寻环境侵
本论文在充分利用巴喀地区现有研究成果的情况下,结合岩心观察、成像测井、测试成果、地震资料等,以构造地质学、油矿地质学及数理统计等为理论指导,研究巴喀地区八道湾组裂缝的发育特点及影响因素,通过三种手段预测了裂缝的分布,采用综合评价方法对三种手段得到的结果评判,研究裂缝有效程度前提下,总结有效缝展布规律。得到如下结果:巴喀地区KEKEYA构造八道湾组断裂以北西西向占主要,平面与剖面上具有多种组合形式。
在部分肝脏切除手术过程中,肝脏内部解剖结构的不可见性直接影响手术精度,同时手术医生需要将患者术前CT或MRI等二维图像信息与患者术中三维解剖信息进行拟合,这对手术经验要求较高,医生术中心理负担较大,此外术中超声图像信息较难理解,都限制了部分肝脏切除手术的发展。增强现实技术的出现为该问题提供了一种解决思路,该技术是将术前CT进行分割重建后获得术前模型并叠加在手术场景中,直观展示患者肝脏解剖结构,指导
本研究在分析了各种常见的磷尾矿资源化利用方法后,提出了利用磷尾矿脱除烟气中二氧化硫的方法;本研究采用XRD对磷尾矿进行了物相分析,利用化学分析方法ICP等对磷尾矿成分进行了分析,通过实验又对磷尾矿脱除二氧化硫的性能以及磷尾矿脱硫的强化进行了研究。在磷尾矿脱硫实验中,主要研究了固液比、温度、进口SO2浓度对脱硫效率的影响规律。实验结果表明,三者对脱硫效率的影响都较大,最佳反应温度为25℃,随着温度升
对土壤造成污染和危害的重金属种类有很多,其中镉(Cd)和砷(As)是较为常见的两种元素。很多研究表明外源添加植物生长调节剂是一种行之有效的措施来提高超富集植物富集重金属。植物生长调节剂在促进超富集植物生长和提高土壤修复效率方面已取得很多成果,但大多为室内盆栽实验,不同植物生长调节剂配合施用提高超富集植物修复效率的大田实验甚少。因此,在课题组之前室内砷超富集植物蜈蚣草(Pteris vittata
现代社会的许多领域中,经常使用多种传感器去捕获同一场景的多幅源图像,这些源图像包含了不同的信息,图像融合任务就是将多个传感器获得的不同信息进行融合处理,使得源图像间的信息互补并综合到一张图像中,得到的融合图像将更加有利于广大学者们的进一步研究以及其他行业的应用。对于图像融合任务,以往的稀疏表示方法对源图像进行分块处理,但这一做法会对图像的某些结构和特征信息造成一定程度的破坏,影响图像的整个结构特征