【摘 要】
:
机器翻译是自然语言处理的一个重要课题,随着互联网的发展,社会越来越需要找到一种快捷的方式沟通不同语言的人群。美国国家标准技术研究院(NIST, National Institute of Sta
论文部分内容阅读
机器翻译是自然语言处理的一个重要课题,随着互联网的发展,社会越来越需要找到一种快捷的方式沟通不同语言的人群。美国国家标准技术研究院(NIST, National Institute of Standards and Technology)更是设立了每年一度的机器翻译竞赛,包括我国在内的众多国家,也都有每年一度的专题学术会议。一大批公司的研究院,以及世界著名大学的研究人员在这个领域的研究上不断推进,向着无障碍多语交流前进,但是当前机器翻译仍然面临着诸多挑战,比如词语对齐、词序调整、语义评价等,而具体到基于实例的机器翻译,如何获取翻译信息,进行有效的类比翻译,也是一项重要的研究课题。本文的研究工作正是在这样的背景下进行的。本文研究的贡献在于,提出了一个可以更容易用于类比翻译的多层对齐框架,这个框架包含三个不同层次的对齐、语法信息和相关性参数,并实现了这个框架;提出了使用这个框架进行基于实例机器翻译的步骤和算法,而且也实现了使用这个框架进行基于实例的机器翻译原型系统。多层对齐框架作为一个用于基于实例机器翻译的对齐框架,同时也考虑了扩展性与完备性,我们同时给出在不同条件下(如缺少语法分析器)的替代方案,和这个框架各个接口的定义与扩展方法。初步实验结果表明,本文提出的多层对齐框架,具有较好的对齐率,尤其是可用于进行类比的对齐强度和相关性系数的准确率达到了90%以上。使用这个多层对齐框架实现的EBMT翻译系统原型,在性能上接近国内优秀的机器翻译系统,BLEU(BiLingual Evaluation Understudy)成绩达到0.2966。同时也证明了丰富的对齐信息,有利于译文的生成。
其他文献
随着多媒体技术的快速发展与互联网技术的日益普及,我们拥有越来越多的数字图像数据,图像数据的种类和数量也在与日俱增,无论是军用还是民用设备,每天都会产生相当数量的数字
随着多层计算机断层扫描(CT)和快速扫描时代的到来,CT已经成为脑部成像的重要工具,并已经成为检查脑癌,中风,颅内出血,创伤和退化疾病等的主要工具。通过对CT影像的诊断和分
Deep Web中包含丰富的信息,这些信息结构性好、价值高、面向特定的领域。访问Web数据库逐渐成为人们获取信息的主要手段,因此如何以自动的方式完成对Web数据库中信息的有效利用
随着嵌入式实时操作系统的发展,各种架构的嵌入式操作作系统越来越广泛的被应用于各种各样的场合,从航天航空、军工企业到人们日常生活所用的智能家电,嵌入式实时系统无处不
Web服务技术作为一种新型的面向服务的分布式计算模式,为软件系统提供了公共的编程接口与统一的互操作协议,屏蔽了操作系统、编程语言、底层硬件结构的多样性,大大推进了软件
随着网络的发展,网络与计算机越来越广泛地应用于现今社会。电子银行、电子商务等网络服务正在悄悄地进入人们的生活。随之而来的各种网络攻击在不断地增加,人们也渐渐地认识
部件化物体分割是面向深度图像建模与识别的关键步骤。在多物体场景中,物体之间因相互遮挡而产生采样数据部分缺失的现象。本文研究并设计了超二次曲面边缘对缺失部分数据的
近年来,越来越多大容量、高质量的流媒体文件出现在互联网上。这种流媒体文件在网络中传输不仅传输时间长,而且代理缓存难度大。于是研究人员提出了各种改进代理缓存结构的思
多Agent系统(MAS)及其相关技术近年来受到越来越多的研究者的关注。它不仅已经被广泛运用到了Internet、办公自动化、冲突协调、决策支持、开放式信息系统等众多领域。并且它
随着现代通信技术和计算机技术的飞速发展,尤其是互联网的迅猛发展,各种网络服务已经渗透到了人们生活的各个领域,一方面给人类生活带来巨大的便利和好处,另一方面也带来了前所未