基于多语言联合学习的汉英缅神经机器翻译研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:silas20
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译已经取得了很好的翻译效果,并且随着神经机器翻译的发展,使得翻译质量得到了进一步的提升,更加的方便了各国人民的交流。然而,进行机器翻译需要大量的平行语料,缅甸语属于资源稀缺型语言,互联网上公开的汉-缅平行语料很少,导致了汉语和缅甸语之间的翻译发展缓慢。为了解决平行语料少导致翻译质量差的问题,有关人员研究了多语言联合学习的神经机器翻译,利用资源丰富的语言来提升资源稀缺型语言的翻译效果。多语言联合学习也成为了当前的研究热点。基于此,本文利用汉-英这种资源丰富的语言来提升汉-缅这种语料稀缺型语言的翻译,研究基于共享解码器以及多语言联合训练的汉英缅多语言翻译方法,本文的研究具有实际的应用价值。论文主要取得以下研究成果:(1)汉-缅、汉-英、英-缅平行语料库构建汉-缅双语平行语料资源稀缺,国内外还没有公开权威的汉-缅平行语料集。因此本文主要详细介绍了汉-缅、汉-英、英-缅双语平行语料的获取方法。我们介绍了如何利用爬虫技术爬取语料,以及在爬取语料过程中遇到的问题及解决方法。本文还利用LDA主题模型与双语词向量相结合,从收集到的汉、缅篇章文档中构建可比文档,并从可比文档中抽取平行语料。最后对构建的平行语料数量进行汇总。其中汉-英平行语料为两百多万句对,英-缅平行语料将近二十万句对、汉-缅平行语料有十万句对。(2)基于共享解码器的汉英缅多语言翻译方法针对汉-缅平行语料缺乏的问题,提出了一种基于共享解码器的汉英缅多语言翻译方法,我们将英语和缅甸语当作源语言,汉语作为目标语言。使用BERT模型训练词向量,并训练英-缅的双语词向量当作翻译模型的词汇表,然后使用不同的编码器对英、缅进行编码,在解码端共享同一个解码器,之后进行解码得到缅语到汉语的翻译。其中编码器和解码器都是使用长短期记忆网络。(3)基于多语言联合训练的汉英缅神经机器翻译方法因为汉、英、缅这三种语言的差异性较大,所以我们提出了基于多语言联合训练的汉英缅神经机器翻译方法,并且实现多语言到多语言的翻译。我们使用基于Transfomer网络进行汉英缅多语言翻译,在模型中将汉、英、缅词向量映射到共享语义空间,这样可以减小三种语言的差异性。因为源语言和目标语言都有三种语言,所以我们探讨使所有源语言和目标语言共享同一个编/解码器。最终来提升缅甸语的翻译效果。(4)基于多语言联合学习的汉英缅神经机器翻译原型系统基于Web技术研发了多语言联合学习的汉英缅神经机器翻译原型系统,实现了汉-缅、英-缅翻译可视化展示,为开展利用多语言联合学习来提升东南亚低资源语言的翻译提供了技术支撑。该系统的模块包括了句子输入模块、分词模块、翻译模块以及输出模块等模块。
其他文献
为了更全面的了解住区街道空间共享对居民健康发展的具体影响,本文以哈尔滨主城区为例从用户对街道空间环境的使用感受出发,针对典型研究对象发现的主要实际问题进行分析,详细总结街道功能空间共享指标系统,为街道空间环境进行综合评估提供可调节指标参考样本,有利于街道现存问题的发现与干预策略的科学制定。
街道是城市中重要的公共空间类型。自20世纪50年代以来,我国街道建设经历了一系列发展变化,从人本视角建设街道空间是提升人民美好生活的充分保障。本文首先从历史维度,分析了我国城镇化各个阶段的街道发展过程,然后以街道的人本特征作为研究对象,分析街道功能、界面和主体的演变规律,进而提出"分区""分层""分型"的街道规划设计策略。
城镇化是社会经济发展的主要驱动力和必然趋势,是人类社会进步的象征。随着社会经济的加速推进,城镇化发展的重点任务转向优化结构和提高质量,新型城镇化是实现这一目标的必由之路。2011年我国出台《主体功能区规划》,提出城镇化和工业化开发要与地区的资源环境承载力相适应。因此,在新型城镇化建设过程中要充分结合地区的主体功能定位进行适宜性开发。文章将新型城镇化建设与主体功能区建设结合起来,以宁夏为研究区域,基
热、超高压结合一些化学物质能够对芽孢内膜流动性及通透性产生一定的影响,芽孢内膜流动性及通透性的变化,可能是导致芽孢被杀灭的重要原因。因此,本文以枯草芽孢杆菌芽孢为研究对象,首先对1,6-二苯基-1,3,5-己三烯(DPH)荧光探针标记芽孢内膜的条件进行优化,然后通过荧光偏振法和流式细胞术研究不同处理下枯草芽孢杆菌芽孢内膜流动性和通透性的变化,同时采用分光光度法检测芽孢内容物的释放情况,并利用平板计
通过近年来全国上下的不懈努力,国家“十三五”规划目标逐渐落实,社会发展迅速,人民的经济收入和生活生平也得到了显著的提高,西部地区的经济开发作为国家长期以来的经济战略方针,需要在新时期、新常态下坚决贯彻。陕西省的产业结构在各项政策的引导下持续转型,以服务业为代表的第三产业在政府的各项政策支持下蓬勃发展。西安作为世界著名的旅游热点,在过去长时间专注于利用历史遗留的人文景点,而传统的观光型旅游方式虽然成
纳米晶SmCo/Fe双相复合材料和SmFeN单相材料,因具有超高的理论磁能积和较高的居里温度而获得广泛关注,但该类材料由于缺乏充分的微结构调控而磁性能不高,针对于此,本文以SmCo/Fe双相复合材料和SmFeN单相材料为研究对象,开展了高能球磨下SmCo/Fe和SmFeN永磁粉体的调控制备和磁性能研究。研究结果表明,(1)对原料成分为真空熔炼SmCo3、SmCo4和SmCo5铸锭进行XRD和VSM
原苏木素A是传统中药苏木的有效成分之一,在药理和临床研究上证实其具有抗肿瘤、免疫抑制以及抗HIV-1整合酶等多种生物活性。目前尚没有原苏木素A衍生物的相关报道,导致药理学家无法对原苏木素A衍生物的生物活性进行深入研究,因此合成原苏木素A衍生物可以更加充分地研究这一类化合物生物活性。首先设计了一条原苏木素A衍生物的合成路线:以酚类化合物为原料,经过碘代、缩合醚化、分子内C-H键活化/C-C键环合、羰
现阶段,高质量人才的培养是我国教育发展战略的重点。教育部2011年制定的《义务教育地理课程标准》提出“学习对生活有用的地理”的基本理念,2014年发布的《关于全面深化课程改革落实立德树人根本任务的意见》提到“各级各类学校要从实际情况和学生特点出发,把核心素养和学业质量要求落实到各学科教学中。”因此,研究以培养初中生核心素养为目标的地理生活化教学策略,对于满足学生生活发展需要的基本的知识需求、提高初
全无机α-Cs Pb I3钙钛矿材料以其较高的光吸收率,合适的带隙及其良好的稳定性在太阳能电池,发光二极管等光电探测器领域的探究受到人们的广泛关注,但由于α-Cs Pb I3钙钛矿材料中含有Pb元素,会对环境造成污染,影响了工业化生产,所以在保证太阳能电池的光电转化效率的同时降低Pb含量就显得尤为重要。本论文采用与Pb同一主族的Ge,Sn,Si元素全部替代与部分替代钙钛矿材料中的Pb元素,对材料的
肺癌一直是世界上最常见的癌症,仅次于乳腺癌和前列腺癌的第三大常见癌症,癌症死亡中占最大比例,且预后不良。肺癌早期一般不产生明显的症状,因此大约60%的人在诊断时都已经处于疾病晚期,无法接受手术治疗。患者5年内生存率不到15%。如果能早期发现肺癌,及时进行手术切除治疗,患者术后死亡率可降低到2%。因此早期诊断对于提高肺癌患者的生存率及改善预后有至关重要的作用。肺癌的传统诊断方法主要包括影像学检查、支