【摘 要】
:
主流的统计机器翻译(Statistical Machine Translation:SMT)方法本质上是词汇化的,将词当成独立实体进行翻译,这种词汇化的方法缺点是无法充分利用形态丰富的语言的形态信息
论文部分内容阅读
主流的统计机器翻译(Statistical Machine Translation:SMT)方法本质上是词汇化的,将词当成独立实体进行翻译,这种词汇化的方法缺点是无法充分利用形态丰富的语言的形态信息。在形态非对称的汉蒙统计机器翻译模型中,由于蒙古语具有丰富的形态变化,而产生严重的选择歧义问题,从而产生译文词形变化上的错误(比如,数、格、人称、性别的不一致以及动词时态、语态不符合上下文等),加深了译文在语法、语义、语用等多个层面的错误。与此同时,蒙古语形态变化的多样性,导致汉蒙平行双语语料规模较小的汉蒙机器翻译系统的数据稀疏问题更加严重。本文将从汉蒙SMT具有形态非对称的特点入手,从蒙古语的形态信息的分析和融合两个角度克服形态非对称汉蒙SMT模型构造问题。首先,结合机器翻译模型和最小上下文构成代价模型对蒙古语进行了形态学切分。然后,提出了因子化翻译模型、链式机器翻译模型以及PageRank重排序的方法以解决非对称汉蒙SMT模型构造问题。因子化翻译模型在训练过程中将词干、词缀视为因子进行翻译,通过多个翻译模型和生成模型,完成目标语言词形的生成。链式机器翻译系统将词干、词缀作为中间语言进行处理。即汉语先翻译成词素,然后根据蒙古语的构词特点,分别采用正则表达式和机器翻译的方法恢复蒙古语。PageRank重排序的方法融合了同一机器翻译系统不同语料的翻译结果,在后处理层面上融合词素信息进行重排序。实验证实,相对标准的短语机器翻译模型,融入形态学信息的统计机器翻译模型构造方法,显著地提高了机器翻译系统翻译质量。
其他文献
光伏并网逆变器作为光伏并网发电系统的核心设备,其可靠性、安全性以及效率一直是研究的热点。本文以基于直接功率控制的并网型光伏逆变器为研究对象,分析了光伏并网系统模型、光伏电池MPPT算法、直接功率控制策略以及虚拟磁链原理,并在此基础上提出改进措施来提高系统性能。论文综述课题研究背景、意义,分析了并网型光伏逆变系统结构及关键技术。介绍了分布式光伏发电系统中存在的“孤岛效应”以及相关光伏发电并网标准。研
虚拟植物是近年来随着信息技术及计算机技术的快速发展而兴起的新的研究领域,是建立在计算机图形学、植物学、数学以及虚拟现实技术等多门学科基础之上的交叉学科。虚拟植物
近些年来,随着国民经济的快速发展,能源过度消耗现象层出不穷,雾霾、沙尘暴等恶劣天气频发,节能减排工作迫在眉睫。本课题以原有西安建筑科技大学节能监管平台的研究为出发点
随着常规化石能源的日益枯竭,近年来风力发电作为一种新兴绿色能源利用方式,获得了迅速的发展,其中变速恒频双馈风力发电技术以其优良的特性,成为主流的风电技术。在这种机组中,交流励磁系统性能的优劣是双馈风力发电机组实现优秀性能的关键环节。本文的研究工作主要是围绕着变速恒频双馈风力发电机交流励磁控制系统展开的,论文主要内容及研究成果如下:本文分析了双馈风力发电机的基本工作原理,讨论了超同步和亚同步两种发电
随着社会信息化程度的发展,高性能的自动化系统在工业、农业、国防等各个领域备受关注。其中,多机器人网络分布式结构是目前一个重要的发展方向,在多机器人的协作与导航中,机
拖挂式移动机器人运动规划作为移动机器人技术的一个重要组成部分,是研究移动机器人技术较为活跃的领域之一,吸引着国内外众多学者的目光。随着各种新方法和新技术的不断出现
本文提出了用自由数学计算软件Scilab设计过程神经网络仿真平台的思路,本文以过程神经网络模型中的前馈单隐层网络模型作为理论基础,通过对Scilab进行一定的扩充,建立一个可视化
近年来,射频识别技术(RFID)作为一种非接触的、高效的自动识别技术,尤其是2.45GHz有源RFID系统凭借其信息存储量大、通信速率快、识别距离远与可自主工作等优点,被越来越多地应
本课题源自国家863重点项目,即“超超临界机组高精度、全激励仿真系统研究与开发”2007AA041106,主要是以国电谏壁发电厂2×1000MW超超临界机组仿真机为依托,研究超超临界机