论文部分内容阅读
机器翻译的定义是通过计算模型将一种自然语言的书写形式翻译成另一种自然语言的书写形式,近年来由于神经网络计算能力的逐步增强,可以利用神经网络进行机器翻译,词能够被映射到维度更高的向量空间中,利用大规模的神经网络将源语言映射到目标语言,神经网络翻译系统在大部分语义上已经超过了传统基于统计的方法。虽然结果有了很大的提高,但整体系统仍受制于训练数据的规模,对平行语料的需求量很大且平行语料标注起来困难较大。因此本文提出的基于语义向量的神经网络机器翻译模型能够利用现有的平行语料,不需要额外其他的平行语料,通过结合资源易获取的数据集构建在目标语言上和源语言上的语义向量,从而提升了机器翻译的性能。另外由于深度学习网络巨大的参数规模,在训练过程中,很多操作和表示都很难解释,也包括在神经网络内部训练中参数动态变化的原因和方式都很难解释。在实验结果分析中,本文利用了一个新的视角去分析训练过程。本文第一部分是构建质量较高的语义向量。本文比较了不同结构对句子进行编码的效果,采用最好的结构对句子进行编码。另外在自然语言理解任务上进行在跨语言的实验,作为语义向量的基线模型,再将编码器的性能通过多任务学习的方式进一步提高,最终得到的跨语言无监督学习得到的语义向量的性能接近有监督学习得到的源语言的语义向量。本文第二部分是利用构建好的语义向量结合到机器翻译模型中,具本文所知这是第一次将由易获取的数据训练后得到语义向量应用到机器翻译任务中。在机器翻译过程中,为了能够充分利用源语言和目标语言在其他易获取的数据上的信息,本文将同时训练双向的机器翻译系统,即同时训练从源语言到目标语言的翻译模型和从目标语言到源语言的翻译。在上述方法的实验结果中可以看到,和其他表现很强的Transformer基线模型相比,在WMT14英法数据集上有了较显著的提高。本文第三部分给出了一种从loss的角度,将loss的变化分配给所有的参数,从而能看出参数对loss减小的贡献起到了正向作用还是反向作用。接下来,利用LCA的方法对上一章的模型进行了检验,通过在标准数据集上的评估,证明力第三章提出的结合语义向量的双向翻译模型新引入的参数,从第三章的实验结果能够提高翻译结果的BLEU值。从本章的角度能够对的loss减小起正向的作用,也就是有助于训练。本文同时比较了几种不同的LCA计算方式,都能得到相同的结论。