论文部分内容阅读
随着因特网的迅猛发展,“信息爆炸”已成为信息处理领域中的瓶颈问题。信息的日益国际化及语言之间的障碍形成了人们对机器翻译系统的强烈需求,而普遍存在的知识获取难题始终制约着翻译系统的发展。语言学知识和统计模型在自然语言信息处理领域所取得的成功,为人们利用语言学资源和统计方法实现翻译知识自动获取在理论和实践方面指明了方向,对机器翻译的研究将具有重要的理论意义和实用价值。本文提出了翻译知识自动获取及优化方案。在知识获取方面,研究了平行双语语料库的对齐加工技术;探索了翻译模板自动获取方法。在知识优化方面,研究了短语翻译对的评价与过滤技术;探索了基于评价的模板库自动优化方法。将获取的翻译知识用于一个基于模板的机器翻译系统中,并对机器译文进行自动评测。实验结果表明:本文提出的知识获取方法可以提高系统的译文输出质量,降低人工获取翻译知识的代价。具体地讲,本文将从以下几个方面开展研究: 1.研究了平行双语语料库的短语对齐加工技术。分析了常用的短语对齐方法,及制约对齐结果的各项因素。为双语句对建立译文等价树,利用贪心算法来消除同层结点译文边界之间的交叉冲突。该等价树仅考虑源语言句法信息,避开了源语言和目标语两种语法体系之间的不一致性对短语对齐的影响,以便从中获取高质量的短语翻译对。 2.研究了短语翻译对自动优化方法。探讨了评价双语互译的常用方法,提出了短语翻译对的评价特征。该特征同时包含了源语言与目标语两部分信息,以期望能够从语言现象本身去反映短语对的互译程度,获取较好的优化结果。使用评价特征对自动获取的短语翻译对集合进行过滤,以消除其中的噪声。同时在评价特征的基础之上,使用多种机器学习算法来提高短语对的评价与过滤性能。 3.研究了翻译模板自动提取技术。对比了几种常用的模板抽取方法,提出了使用错误驱动的学习方法来获取模板。利用源语言的句法特征、词性特征、词法特征、核心结点信息及机器翻译词典,对短语对进行简单地映射以提取学习实例。采用错误驱动的学习方法从中抽取翻译模板,力图解决模板自动获取问题。同时,对翻译模板库进行合理地组织以提高检索匹配的效率。 4.研究了模板自动评价与优化方法。分析了常用的模板过滤方法。以模板对训练语料库译文评测分数的总体贡献,和正确翻译语言现象的能力为基础,提出了一种新的模板评价机制。同时给出了该评价机制在不同优化策略下的具体数学表达形式。使用频度信息过滤模板库以获取适应新任务的翻译知识。