论文部分内容阅读
机器翻译技术可以有效地帮助那些未熟练掌握外语的人们阅读和理解外文信息。当前机器翻译可分成统计机器翻译和神经机器翻译两类,其中神经机器翻译模型采用神经网络技术,主要由编码器和解码器构成。虽然编码器从两个方向上对输入序列进行编码已经成为事实标准,但多数模型的解码器仍然仅沿单一方向进行解码,这就使得解码器对未来可能存在的单词完全未知,也即存在可用信息不充分的问题。已有研究人员对双向解码进行研究。BLSTM通过让译文在双向解码器上都能取得较高概率,但它仅是间接使用反向译文信息。ABD-NMT采用异步方式组合双向解码器让正向解码器可以同时利用输出序列信息和反向解码器的隐含层状态信息进行解码,但反向解码器仍然存在信息不充分的问题。受双向编码的启发,并基于“单词预测的准确性正比于该单词上下文信息的丰富程度”的认知,本文提出双向并行解码模型。本文的模型采用两个解码器同时从左向右和从右向左生成输出序列,且解码器在预测单词的每一时步都会使用相反方向解码器的内部信息。我们设计了两种融合反向解码器信息的策略,分别将反向信息视为对输出序列上下文的补充和对输入序列的补充。我们采用加权求和的方式融合信息,并设计了两种不同的权值设置方式,分别是手动赋值和自动学习。本文工作包含如下五个方面:(1)我们将本文提出的双向并行解码模型与RNNsearch、BLSTM和ABDNMT进行对比。实验结果表明双向并行解码要明显优于不使用反向信息的RNNsearch和间接使用反向信息的BLSTM,且略优于仅单方面使用反向信息的ABD-NMT。(2)我们对比分析了不同融合策略和权值设置方式对翻译效果的影响。从结果可知:将反向信息充当记忆信息的融合策略要优于充当查询信息的融合策略;手动赋值的权重大小与模型翻译效果之间没有线性关系;采用手动赋值方式的模型的训练波动更小且收敛更快。(3)为了分析错误传播带来的输出不平衡问题在各模型中的程度,我们将译文按照不同粒度分段,然后评估各段译文的BLEU值。通过计算和分析相邻两段的平均差值和首尾两段的绝对差值,我们认为双向并行解码有助于缓解输出不平衡问题。(4)为了规避解码过程中错误传播的影响和集束搜索的约束,我们让模型直接基于真值进行单词预测,以此探究双向并行解码对单词准确性的影响。从实验结果可知在基于真值进行单词预测时,双向并行解码模型比单向解码模型更为精确。(5)我们分析了训练步长和束宽大小对模型的影响。实验结果表明即使损失函数已经收敛但模型翻译效果仍有可能提升,此外模型翻译效果与束宽大小之间没有线性关系。