论文部分内容阅读
机器翻译是利用计算机实现不同语言间翻译的一门科研型和应用型的学科。随着科技的发展,现在社会信息量膨胀。机器翻译在旅游会话、产品全球化和信息检索等领域的需求量越来越多。近几年,机器翻译研究取得了很大的进展。但是,在具体应用中,机器翻译还未达到令人满意的水平。在统计机器翻译中,如何有效利用语言学知识仍然是机器翻译中的一个研究热点。在市场应用中,统计机器翻译方法仍然占据主导地位。所使用的模型主要有短语模型和层次短语模型。由于涉及到句法结构的翻译模型比较复杂,因此其往往很难投入到产品中。然而,随着计算能力的提高,融合语言学和句法知识的翻译模型潜力巨大。因此,如何使用句法知识和语言学知识提高传统模型成为了主要问题。格语法是语言学中成熟的语法理论。在众多语言中,日语格是一种显性格,格信息由不同的格助词标记。因此,日语的格框架较其他语言更加明显且容易分析。此外,日语格框架已被使用于日语句法分析,较其他任何语言,日语句法分析得到了最好的效果。因此,本文提出将日语格框架应用于层次短语模型中。这是在统计机器翻译中的首次尝试。本文的贡献可分为以下几点:(1)利用日语格框架约束层次短语翻译规则,从语义学的角度阐述层次短语规则的生成,使其更加合理。目的在于更加有效地利用统计学与语言学之间的关系。实验表明层次短语规则数量减少。(2)提取日语格框架调序规则,并将其用于翻译过程。目的在于缓解层次短语在长距离调序中,glue规则的频繁使用。并且,本文考虑词对齐的错误带来的影响,在规则抽取过程做了软约束。实验表明提高了翻译质量。(3)提出基于chunk的依存树到串的上层翻译过程,使翻译过程更加符合规则的描述。目的在于缓解虚词和助词在词对齐上的影响。通过实验分析,本文证明了提出方法的合理性及有效性。