论文部分内容阅读
机器翻译(machine translation,MT)是自然语言处理(nature language processing,NLP)的一个分枝,它是利用计算机把一种自然语言翻译成另一种自然语言的技术。机器翻译一直被认为是自然语言处理中最具挑战、最具难度、同时也是最具价值的研究领域。
1954年,美国乔治敦大学(Georgetown University)进行了人类历史上的第一次机器翻译的公开演示,尽管演示尚不算很成功,但它拉开了人们研究机器翻译的序幕。经过半个多世纪的发展,目前机器翻译领域的研究方法基本上可以分为两大类,即基于规则(rule-based)的方法和基于语料库(corpus-based)的方法。基于规则的方法又可以分为基于转换的方法和基于中间语言的方法,基于语料库的方法可以分为基于统计的方法和基于实例的方法。
基于实例的机器翻译(example based machine translation,EBMT)是基于语料库方法的一种,最早由日本著名的机器翻译专家Nagao提出。其基本设想是在已有的大量的语言学经验知识的基础上,通过类比原理进行翻译。EBMT系统克服了规则系统具有的语言知识获取代价大,语法、语义分析困难的缺点,同时又具有翻译精度高,译文流畅,系统易扩展等优点,而逐渐成为近年来机器翻译领域的热门方法。
本文的内容是实现一个基于EBMT技术的汉日机器翻译系统WBMT(Word Based Machine Translation),系统使用了50,000个双语词对齐句对作为翻译实例库。WBMT系统由相似实例检索、实例调整、词义消歧和后处理四个模块组成,其中相似实例检索模块和实例调整模块用于实现基于EBMT技术的翻译算法,词义消歧和后处理模块用于改善译文的质量。WBMT是FUJI XEROX公司和东北大学自然语言处理实验室的合作项目“面向奥运新闻的汉日机器翻译系统”的一个子系统。系统的设计要求是完成实例库中的5万个中文句子及其相关句的翻译。测试结果表明系统的翻译准确率在70%以上。