论文部分内容阅读
机器翻译的研究始于20世纪40年代,最开始采用基于规则的技术,20世纪90年代之后基于统计的技术逐渐取代基于规则的技术成为研究主流。2016年,谷歌推出神经网络机器翻译,机器学习的方法成为研究热点。实践证明,神经网络机器翻译极大地减少了机器译文的错误,并提高译文的流畅度。多家互联网企业纷纷上线了基于神经网络的机器翻译系统。从基于规则的技术到基于统计的技术,再到基于机器学习的技术,机器翻译对语言结构分析的依赖性越来越低。笔者认为基于统计和机器学习的方式虽然效果显著,但由于其缺乏对语言结构的分析,必然存在相应的局限性。机器译文仍然存在很多错误也说明了这一点。基于对机器译文的观察,笔者发现目前机器翻译已经解决了很多短距离的错误,但长句翻译结果仍然不是很好。这主要是因为长句结构复杂,而英汉长句结构又有差异。因此,本文旨在从错误分析入手,以小句复合体为视角,探索汉英语言结构差异对机器翻译的影响。本研究的目的是探索汉英机器翻译中小句复合体层面错误与汉英语法差异的联系,从而为改进机器翻译,提高译文质量提供参考和建议。本文将通过研究回答以下三个问题:小句复合体层面错误如何分类?小句复合体层面错误和汉英语法差异存在什么联系?小句复合体层面错误的统计分布有什么特征?本研究收集了21篇文章作为测试语料,体裁包括新闻、百科全书和政治类文本三类。研究的具体操作步骤为:在小句复合体理论指导下将文本切分为小句复合体;将各个小句复合体输入谷歌翻译、百度翻译、搜狗翻译和小牛翻译四个在线翻译系统,得到四个机器译文;标注机器译文中的小句复合体层面错误并补充相应说明;分类错误,并从汉英语法差异的角度分析错误;统计错误并分析统计结果。定性分析表明:小句复合体层面错误可以分为词语错、共享结构错、逻辑关系错;小句复合体层面错误和汉英语法差异有关,汉英在意合与形合方面的根本性差异导致了汉英各方面的差异,进而影响了小句复合体层面的错误。统计结果表明:共享结构错和逻辑关系错在小句复合体层面错误中占比较高,堆栈结构错在共享结构错中占比最高;小句复合体层面错误的数量和小句复合体的规模成正比;不同文体中出现小句复合体层面错误的概率不同。研究说明机器翻译研究人员应该重视小句间关系的研究,以进一步提高机器翻译的质量。