基于模板的斯拉夫蒙古文—汉文机器翻译系统的研究与实现

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户:lxkef
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于模板的机器翻译TBMT(Template-based machine translation)是从基于实例的翻译方法发展而来,利用双语翻译模板来实现从源语言到目标语言的自动翻译过程。它可以看作基于规则方法和传统基于实例方法折中的方法,是一种有效的机器翻译方法。利用翻译模板取代翻译规则,可以避免规则的繁杂和冲突。利用翻译模板取代翻译实例,这样可以减小实例库的规模,提高实例的匹配率。  本文采用基于句子模板和短语模板结合的方法展开研究工作。在斯拉夫蒙古文-汉文句子对齐双语语料上对汉文进行句法分析,获得汉文名词短语,然后将名词短语与斯拉夫蒙古文进行对齐,从而获得斯拉夫蒙古文名词短语,将对齐的名词短语作为模板变量,其他部分作为模板常量,抽取出句子模板。将名词短语中对齐的名词、代词、数词作为变量,其它词作为常量,抽取出短语模板。这样从实例中抽取出句子模板和短语模板,构建双层翻译模板库。  在翻译测试阶段,利用模板搜索算法和匹配算法在模板库中搜索与待翻译句子匹配的模板,然后采用句子模板和短语模板结合的方法进行翻译。首先,利用句子模板翻译待翻译句子的主干部分,利用短语模板翻译与句子模板变量相对应的待翻译句子中复杂的名词短语,得到候选译文。其中,翻译过程不断利用剪枝算法对候选译文进行剪枝,最后利用汉文语言模型得到最佳译文。  本文实验中整理了斯拉夫蒙古文-汉文双语平行语料库用于构建模板库,然后进行了翻译测试。实验结果表明,基于模板的方法有非常好的翻译能力。  本文的研究已应用于实际的机器翻译系统中,我们基于本文的方法开发了一个斯拉夫蒙古文-汉文机器翻译系统。
其他文献
本论文中基于特征点空间关系的图像检索算法是基于内容的图像检索算法的一个重要分支,是对图像底层特征进行深入研究而提出的一种图像检索算法。图像底层特征的提取和描述是基
在Google推出Android操作系统后,由于Android具有优越的体验效果和免费与开源特性,Android网络机顶盒越来越多的受到人们的欢迎。与此同时,空中鼠标技术也崭露头角,相比早期
无线传感器网络(WSN)是集通信技术、计算机技术、传感技术及网络技术为一体的智能自组织网络系统。系统能够感知和处理各种环境数据,实现人与物理世界的信息交互,在人类生活领域
多目标跟踪属于计算机视觉的一个方向,并与多个学科交叉形成了一个独立的领域。随着科技和技术的进步,多目标跟踪技术被广泛应用,例如由来已久的各种军事雷达跟踪系统和现如
软件服务外包在我国迅猛发展,潜力巨大,但软件服务外包行业一直存在着软件可靠性差和开发效率低的问题。因此高效率地开发正确、可靠的软件成为软件服务外包产业的迫切要求。由
随着无线通信技术、现代网络技术和嵌入式系统技术的快速发展,无线传感器网络的应用越来越受到人们的重视。在当前学术界和工业界中,无线传感器网络已经是一个热门的研究领域
树木在自然生长过程中常常伴随着节子的出现。节子是树木中较常见的一种现象,它不仅会破坏木材纹理构造的均匀性和完整性,使纹理质量下降,大大降低木材的档次,而且会影响木材表面
网络编码是是一个新兴技术,能够有效地解决无线传感器网络的节能问题,带来网络性能在诸多方面的增益。但是,由于编码的特点,网络编码系统更容易受到污染攻击的影响。安全问题
随着资源爆炸式增长,搜索引擎已成为互联网用户获取信息的重要工具,传统搜索引擎多采用集中式架构,将搜索系统部署在一台服务器上,因此对服务器性能要求较高,且存在系统稳定
GNSS-R技术是GNSS领域当前的研究热点之一,该技术利用全球导航卫星系统的反射信号来进行反射面参数反演。通过研究反射信号功率中各分量在反射面的分布及变化规律来实现反射面