基于双向并行解码的神经机器翻译

来源 :吉林大学 | 被引量 : 0次 | 上传用户:duzitengnihaoma
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译技术可以有效地帮助那些未熟练掌握外语的人们阅读和理解外文信息。当前机器翻译可分成统计机器翻译和神经机器翻译两类,其中神经机器翻译模型采用神经网络技术,主要由编码器和解码器构成。虽然编码器从两个方向上对输入序列进行编码已经成为事实标准,但多数模型的解码器仍然仅沿单一方向进行解码,这就使得解码器对未来可能存在的单词完全未知,也即存在可用信息不充分的问题。已有研究人员对双向解码进行研究。BLSTM通过让译文在双向解码器上都能取得较高概率,但它仅是间接使用反向译文信息。ABD-NMT采用异步方式组合双向解码器让正向解码器可以同时利用输出序列信息和反向解码器的隐含层状态信息进行解码,但反向解码器仍然存在信息不充分的问题。受双向编码的启发,并基于“单词预测的准确性正比于该单词上下文信息的丰富程度”的认知,本文提出双向并行解码模型。本文的模型采用两个解码器同时从左向右和从右向左生成输出序列,且解码器在预测单词的每一时步都会使用相反方向解码器的内部信息。我们设计了两种融合反向解码器信息的策略,分别将反向信息视为对输出序列上下文的补充和对输入序列的补充。我们采用加权求和的方式融合信息,并设计了两种不同的权值设置方式,分别是手动赋值和自动学习。本文工作包含如下五个方面:(1)我们将本文提出的双向并行解码模型与RNNsearch、BLSTM和ABDNMT进行对比。实验结果表明双向并行解码要明显优于不使用反向信息的RNNsearch和间接使用反向信息的BLSTM,且略优于仅单方面使用反向信息的ABD-NMT。(2)我们对比分析了不同融合策略和权值设置方式对翻译效果的影响。从结果可知:将反向信息充当记忆信息的融合策略要优于充当查询信息的融合策略;手动赋值的权重大小与模型翻译效果之间没有线性关系;采用手动赋值方式的模型的训练波动更小且收敛更快。(3)为了分析错误传播带来的输出不平衡问题在各模型中的程度,我们将译文按照不同粒度分段,然后评估各段译文的BLEU值。通过计算和分析相邻两段的平均差值和首尾两段的绝对差值,我们认为双向并行解码有助于缓解输出不平衡问题。(4)为了规避解码过程中错误传播的影响和集束搜索的约束,我们让模型直接基于真值进行单词预测,以此探究双向并行解码对单词准确性的影响。从实验结果可知在基于真值进行单词预测时,双向并行解码模型比单向解码模型更为精确。(5)我们分析了训练步长和束宽大小对模型的影响。实验结果表明即使损失函数已经收敛但模型翻译效果仍有可能提升,此外模型翻译效果与束宽大小之间没有线性关系。
其他文献
随着网络的移动化趋势,嵌入式移动数据设备的应用系统越来越多,带来了更高的数据同步需求,局部数据库间以及局部数据库与数据中心闻的数据的交互、交换的工作量大为增加,利用数据
肿瘤的发生是一个多基因、多阶段逐步演进的过程,是一种癌基因的激活和抑癌基因失活的基因病。但肿瘤细胞的形成及其恶性表型的维持并不是由单个基因决定的,它涉及多个基因及其
建筑给排水设计直接关系到建筑水资源的使用,由于水资源相对比较匮乏,因而在对建筑给排水设计过程中需应用节能节水技术,以促进我国水资源浪费情况有所改善。本文笔者对建筑
底层文学是在新世纪兴起的一种文学创作形式,其发展变化有着深刻的现实土壤条件,并呈蓬勃发展的态势要。本文阐释了底层文学的基本内涵、发展现状,重点从总体上归纳出底层文
目的描述中学生交通安全知识、态度和行为特征,为预防控制中学生交通事故提供参考依据。方法整群抽取济南市7所中学在校学生为研究对象,采用问卷对某人口学特征以及交通安全
珠心算是在珠算基础上发展起来的,是眼、手、脑等多种感官并用的一项开智活动。通过珠心算教学,我深有感触.珠心算引入数学课堂教学,能有效地提高学生的整体素质。一、珠心算可以
代表呼吁今年2月的一天下午,紫金县人大常委会副主任马火林、刘育新正在办公室商量工作时,县人大代表、南岭镇庄田村委会主任范灵俊突然造访,言语中充满忧虑和期盼。 On the
"朗读亭"带来的朗读热潮,激发了全民阅读兴趣。文章从"朗读亭"的设计出发解读阅读的本意及传统阅读空间的设计。在体现阅读的过程和拓展阅读的延伸方面,"朗读亭"的设计和古代
麻醉科是医院高风险医疗设备的集中地。本文探讨了具有一定规模的医院在麻醉科设立专职的麻醉设备工程师的必要性。
目的研究甲钴胺、格列齐特及其联合用药对链脲佐菌素(STZ)糖尿病大鼠坐骨神经功能和多元醇代谢通路的影响.方法动物灌胃给药,连续8周,观察药物对链脲佐菌素糖尿病大鼠坐骨神