【摘 要】
:
基于句法的统计机器翻译模型近年来成为了统计机器翻译研究的热点,相对于经典的短语模型,句法模型能够将更多的语言学知识融入翻译过程,更好的指导翻译以及重排序。本文以依
论文部分内容阅读
基于句法的统计机器翻译模型近年来成为了统计机器翻译研究的热点,相对于经典的短语模型,句法模型能够将更多的语言学知识融入翻译过程,更好的指导翻译以及重排序。本文以依存句法作为切入点,考察依存句法结构和语言知识标记在翻译过程中所起的作用,提出了加入语法标记的泛化翻译模型,设计并实现了一个跨语言的依存句法分析器和两个基于依存句法结构的机器翻译系统。在依存句法分析方面,构建了一个基于动作序列预测的确定性依存句法分析器;该分析器以移进归约(shift-reduce)方法为基础,加入了基于统计信息的在线错误修正和全局动作序列的选优工作,减小了错误动作的影响;在CoNLL2007的评测集上,中文依存弧标记准确率为(LAS)76.36%,英语LAS为82.93%。在机器翻译方面,本文在依存句法分析的基础上搭建了两个基于依存树到串的统计机器翻译模型;其中模型1采用的是完全词汇化的翻译模板,在源语言端抽取依存子图(treelet),并在目标语言中寻找与之对齐的连续词串信息;在实验中,结合短语规则的系统成绩略低于经典的短语翻译系统;模型2采用了泛化的方法来对已经学习到的词汇化模板进行归纳,与之前的模型不同,本文提出使用语法知识标记对泛化模板进行约束,使用了3种泛化变量的形式,分别代表3种类型的语法信息;具有语法标记的泛化模板加入了语法约束,因而可以更加有效的指导译文的选择和调序;其实验结果超越了基于短语的翻译系统。
其他文献
随着计算机技术和网络应用的普及,人们对计算机系统的依赖日益增强。一些关键性的业务处理系统要求计算机服务系统具有很高的可用性,以保证业务处理的连续。因此必须提高业务系
在过去的十几年中,通讯网络经历了巨大的变革。包交换技术最终使传统的语音网络和数字网络融合到一起成为统一的多媒体网络,其范围进一步扩展,将有线,无线,蜂窝网络融合一体。有线
随着计算机应用领域的不断拓展,教育领域首当其冲,尤其对于聋儿教育领域,借助先进的计算机多媒体工具进行教学,实现传统媒体与电教媒体的有机结合,可以更好地利用聋幼儿的残余听力
组态软件是针对数据采集与过程控制的专用软件,它是使用在自动控制系统监控层一级的软件平台和开发环境,它能以灵活多样的组态方式(而不是编程方式)提供良好的用户开发界面和
关联规则是数据挖掘的一个重要研究方向,旨在挖掘项集之间的内在联系。Fp树算法是关联规则的一种基于深度的典型算法,具有良好的性能和可扩展性。Fp树通过自顶向下构造频繁树和
P2P是近些年发展起来的网络技术,目前在很多领域得到了应用,逐渐成为业界研究与关注的一个焦点。但是P2P网络发展和壮大的过程中,产生了一系列急需研究和解决的问题,其中最重要和
在几乎所有现代通讯和计算机网络领域中,安全问题都起着非常重要的作用。随着网络应用的迅速发展,对安全的要求也逐渐加强。目前影响最大的三类公钥密码是RSA公钥密码、ElGam
随着互联网走进千家万户,网络上的信息量也呈现出了前所未有的快速增长,通用搜索引擎在采集信息资源、存储索引海量网页等方面的挑战越来越大。同时,特定行业内的科研和从业
本文提出了一种计算机生成剪纸风格流水动画的方法。通过对手工剪纸作品中的流水纹样进行分析,将其分为涟漪、缓流和激流三种类型。涟漪水面平静,纹波荡漾,常见于湖面;缓流用