论文部分内容阅读
基于模板的机器翻译TBMT(Template-based machine translation)是从基于实例的翻译方法发展而来,利用双语翻译模板来实现从源语言到目标语言的自动翻译过程。它可以看作基于规则方法和传统基于实例方法折中的方法,是一种有效的机器翻译方法。利用翻译模板取代翻译规则,可以避免规则的繁杂和冲突。利用翻译模板取代翻译实例,这样可以减小实例库的规模,提高实例的匹配率。 本文采用基于句子模板和短语模板结合的方法展开研究工作。在斯拉夫蒙古文-汉文句子对齐双语语料上对汉文进行句法分析,获得汉文名词短语,然后将名词短语与斯拉夫蒙古文进行对齐,从而获得斯拉夫蒙古文名词短语,将对齐的名词短语作为模板变量,其他部分作为模板常量,抽取出句子模板。将名词短语中对齐的名词、代词、数词作为变量,其它词作为常量,抽取出短语模板。这样从实例中抽取出句子模板和短语模板,构建双层翻译模板库。 在翻译测试阶段,利用模板搜索算法和匹配算法在模板库中搜索与待翻译句子匹配的模板,然后采用句子模板和短语模板结合的方法进行翻译。首先,利用句子模板翻译待翻译句子的主干部分,利用短语模板翻译与句子模板变量相对应的待翻译句子中复杂的名词短语,得到候选译文。其中,翻译过程不断利用剪枝算法对候选译文进行剪枝,最后利用汉文语言模型得到最佳译文。 本文实验中整理了斯拉夫蒙古文-汉文双语平行语料库用于构建模板库,然后进行了翻译测试。实验结果表明,基于模板的方法有非常好的翻译能力。 本文的研究已应用于实际的机器翻译系统中,我们基于本文的方法开发了一个斯拉夫蒙古文-汉文机器翻译系统。