论文部分内容阅读
在日益全球化的今天,机器翻译成为了日常生活中不可或缺的工具。中美两国作为两个世界大国,文化交流甚是频繁,汉英机器翻译的需求因此变得越来越大。随着近几年深度学习的急速发展,神经网络机器翻译相比于传统的机器翻译而言取得了巨大的突破。然而,机器翻译的效果尽管有了极大的提升,能够满足人的基本需求,但对于高要求的翻译任务来说,就目前的机器翻译来说还是远远不够的。其中,机器翻译的时态问题正是目前还未得到完全解决的问题。本文旨在解决汉英机器翻译过程中的时态处理问题。通过结合前人所做的工作,本文提出基于深度学习的树形时态标注算法。时态标注算法建立在马尔科夫树标注模型上。马尔科夫树标注模型是一种可以解决层次性问题的通用机器学习方法。语言具有层次性,从层次角度探索语言本身的含义可以获得更多的信息。本文使用深度信念网络做特征提取器,利用事先构造好的自动标注算法从平行语料库中获得标注数据。标注数据为树形结构,为了得到可供网络使用的数据,本文采用人工规则对标注数据进行编码。网络训练完成后,通过马尔科夫树标注模型对中文句子转换而成的不完全时态树进行时态标注。实验表明,基于深度信念网络的树形时态标注算法较前人的研究成果有一定的提升。这说明本文提出的方法具有一定的可行性,能够在一定程度上缓解汉英机器翻译过程中的时态问题。为了验证时态标注算法的效果,本文将时态标注算法与汉英无时态机器翻译系统相结合,得到附有时态处理模块的汉英机器翻译系统。本文利用去时态操作对原始英文数据进行处理,消除掉英文数据中的时态信息,并结合与之对应的中文数据使用Transformer 模型构建出无时态翻译系统。在翻译过程中,中文句子通过无时态翻译系统得到无时态英文句子及翻译注意力。本文利用翻译注意力构造出中英文的对齐关系,并使用对齐关系作桥梁,通过时态标注算法从中文句子中获得的时态信息对英文句子的时态进行修改。实验表明,通过结合时态标注算法的机器翻译在翻译过程中能够准确对时态进行处理,并对翻译结果有一定的改善。