论文部分内容阅读
当今世界人类社会和经济社会快速发展,随着世界各国全球化合作日益加深,人类社会对机器翻译的需求也迅速增加,而人工智能技术的进步,也对机器翻译的质量提出了新的要求。同时,机器翻译研究的开展,对自然语言处理的其他领域有着标杆性的作用。因此,对于机器翻译的研究不仅具有很高的实用价值,更能推动自然语言处理理论研究的进步。机器翻译模型可以分为统计机器翻译和神经机器翻译两大类。其中神经机器翻译模型是利用深度学习技术,完全依赖于神经网络搭建的翻译模型,主要由编码器和解码器两个部分组成。经典的“编码器-解码器”模型中大多采用的是循环神经网络。但由于循环神经网络本身不适合进行深层网络的叠加,所以很难通过叠加多层网络来提高机器翻译模型的性能。而当下正流行的Transformer模型在延用“编码器-解码器”框架的同时,完全摒弃了循环神经网络,采用多头自注意力机制和前馈神经网络进行模型网络的搭建,虽可以进行多层网络叠加,但因其摒弃循环神经网络,所以失去了输入序列的位置信息特征,为解决此问题,该模型在对文本进行转换表示的过程中加入了位置信息向量。基于对以上问题的思考,本文作出如下工作和研究:(1)针对第一种经典的基于循环神经网络的翻译模型,本文引入了独立循环神经网络作为模型的网络结构。通过分析推导,证明了该网络不但能保持循环神经网络的基本序列位置特性,还可以有效的解决梯度消失和梯度爆炸的问题,同时该网络能够很好的通过叠加多层网络来提高模型的效果。(2)对改进后的第一种模型进行了实验验证。在实验中设置了3组对照实验,其网络结构分别为循环神经网络、长短期记忆LSTM、GRU。通过比对分析得出在实验的数据集上,独立循环神经网络的表现优于其余三组对照实验,并且叠加多层后对模型的提升效果高于其余三个模型。(3)针对第二种Transformer模型,受到其文本编码过程及翻译工作的语言认知学本质启发。本文将文本中单词的词性信息融入到编码过程中,与词向量表示和位置向量表示相加后作为最终输入向量。(4)对改进后的第二种模型进行了实验验证。在实验中将原Transformer模型作为基线模型进行对比分析。实验结果表明,加入词性信息后的Transformer模型翻译效果要优于基线模型。