论文部分内容阅读
随着全球化进程的飞速发展,机器翻译(Machine Translation)经历了很长一段时间的演变和发展。起初的机器翻译就是将一种语言转化为另一种语言的自然语言处理活动。随着近几个世纪的计算机技术的不断发展,机器翻译研究的内容已不再是计算机科学和语言学的简单综合,而其中会更多的涉及到语料库、语义学、自然语言处理、数学、科学计算、生物科学和人工智能等多个学科领域。虽然机器翻译发展的水平已经有了很大的提高,但是机器翻译的译文质量依然不是很高,也难以达到用户的需求,其中一个最主要的问题就是英语长句的处理。复杂的英语长句在英语中很常见,甚至贯穿于整个英文文章中,这些复杂长句的分析结果会严重影响机器翻译的质量和可读性。所以英语长句的处理及研究依然是机器翻译领域内的一个关键性问题。英语长句的分析方法和从字典中查询单个单词的方法是大不相同的。词汇的翻译只需要进行词元化和标记,进而在数据库中查找这个单词的原始形态。而简单单词或词汇的分析程序只是长句分析过程的一个初始部分。在文章中,长句的处理还需要对一些涉及上下文的、模棱两可的相关词进行辨别。在分析长句结构的程序中,有些问题如从句之间的关系、词的远距离相关等都需要考虑在内。所以,这些复杂的英语长句能否被正确的分析和翻译成用户所需要的目标语言已经成为影响机器翻译快速发展的关键因素。另一方面,现在整个翻译系统资源面临着严重不足的情况,并且这种不足会直接影响用户捕捉有用信息的能力。所以正确分析英语长句将会成为完成信息化策略的关键问题。本文主要是在现有的英汉机器翻译基础上寻找更有利于英语长句翻译的方法。通过对词性标注及规则的改进,使得规则能够匹配更多的句子模式,以提高现有的机器翻译译文的质量。本课题主要是在长句切分方面进行研究及改进,希望能够通过英语长句的准确切分来达到分段的目的,且能有效的缩短句子的长度,从而有利于形成正确的译文。通过对正则匹配法进行改进,实现长句切分,进而达到简化句子模式的目的。本文搭建的基于规则的机器翻译系统主要是构建信息库及规则库,通过对源语言的分析,进而对待翻译语句进行语义、句法及语法等进行分析判断,然后对其重新组合,最后输出译文。传统的基于规则的机器翻译模型中的规则主要是依靠语言学家进行总结调试,而本文中的规则是结合语料库的知识来进行总结及改进。并且基于规则的机器翻译方法可以比较准确且直观的表达出一种语言或一个语句的语法构成,那么计算机就可以按照人们制定的规则来更好地理解自然语言。