基于EBMT技术的汉日机器翻译系统的实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:cscbob
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译(machine translation,MT)是自然语言处理(nature language processing,NLP)的一个分枝,它是利用计算机把一种自然语言翻译成另一种自然语言的技术。机器翻译一直被认为是自然语言处理中最具挑战、最具难度、同时也是最具价值的研究领域。 1954年,美国乔治敦大学(Georgetown University)进行了人类历史上的第一次机器翻译的公开演示,尽管演示尚不算很成功,但它拉开了人们研究机器翻译的序幕。经过半个多世纪的发展,目前机器翻译领域的研究方法基本上可以分为两大类,即基于规则(rule-based)的方法和基于语料库(corpus-based)的方法。基于规则的方法又可以分为基于转换的方法和基于中间语言的方法,基于语料库的方法可以分为基于统计的方法和基于实例的方法。 基于实例的机器翻译(example based machine translation,EBMT)是基于语料库方法的一种,最早由日本著名的机器翻译专家Nagao提出。其基本设想是在已有的大量的语言学经验知识的基础上,通过类比原理进行翻译。EBMT系统克服了规则系统具有的语言知识获取代价大,语法、语义分析困难的缺点,同时又具有翻译精度高,译文流畅,系统易扩展等优点,而逐渐成为近年来机器翻译领域的热门方法。 本文的内容是实现一个基于EBMT技术的汉日机器翻译系统WBMT(Word Based Machine Translation),系统使用了50,000个双语词对齐句对作为翻译实例库。WBMT系统由相似实例检索、实例调整、词义消歧和后处理四个模块组成,其中相似实例检索模块和实例调整模块用于实现基于EBMT技术的翻译算法,词义消歧和后处理模块用于改善译文的质量。WBMT是FUJI XEROX公司和东北大学自然语言处理实验室的合作项目“面向奥运新闻的汉日机器翻译系统”的一个子系统。系统的设计要求是完成实例库中的5万个中文句子及其相关句的翻译。测试结果表明系统的翻译准确率在70%以上。
其他文献
当今社会计算机网络在人们的生活中扮演着越来越重要的角色,然而人们也被网络中存在的恶意攻击行为所困扰。目前人们所能识别的网络中的风险主要依靠防火墙、入侵检测系统等安
无线传感器网络(WSN)在军事国防、环境检测、医疗卫生等许多领域都具有广泛的应用前景。对于大多数应用,不知道传感器位置而感知的数据是没有意义的,确定传感器节点自身位置和
数字图像压缩技术被应用到多媒体通讯、医学图像等各个领域。在未来的科技应用中,它仍然显示出其强大的生命力和发展潜力,但是图像数据量巨大,那么怎样处理、组织图像数据,在应用
计算机层析成像(CT)被广泛应用于肺部疾病的诊断,成为医生进行肺部病理分析、解剖研究以及肺功能评估的重要手段之一,以此为基础的计算机辅助诊断成为了提高医生诊断效率和水平
信息化是迅速提升钢铁企业自身竞争力、促进其持续有力发展的必然选择和技术保证。ERP系统的建立大大加快了钢铁企业的信息化进程。数据仓库技术是综合利用关系复杂的海量数
随着互联网技术的发展,网络黄毒日益泛滥。这不仅严重影响青少年身心健康,而且也给人们日常生活带来诸多不便。如何过滤不良信息是个重要的研究课题。目前,已有一些不良信息过滤
目标跟踪是计算机视觉领域研究方向的一个重要方面,主要目的是跟踪目标物体在视频的每一帧中的外观和运动状态的变化。近年来,稀疏表示被应用到视觉跟踪领域,通常选择最小重构误
随着3G技术的不断发展,基于IMS(IP Multimedia Subsystem,多媒体子系统)的Push—to—X技术受到越来越多的关注。Push—to—Voice作为Push—to—X的一个重要分支,主要实现语音查
关联规则挖掘是数据挖掘中研究较早而且至今仍最活跃的研究分支之一。本文正是在这种背景下而研究的。关联规则挖掘是从大量的数据中挖掘出有价值描述数据项之间相互关系的有
遍布全球的互联网正在无时无刻、无所不在的渗透到人们的工作、学习和生活当中。从企业的信息化、商业的智能化到科教卫生等各个领域都可以找到互联网的影子,“互联网”这个词