基于短语的统计机器翻译模型若干关键技术研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:ZWCSS
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译是自然语言处理的核心课题,统计方法在机器翻译中的应用在近二十年里得到复苏,各种统计机器翻译模型被提出并表现出巨大的潜力。在各种统计机器翻译模型中,目前占主流地位的是基于短语的翻译模型。短语模型简单而健壮并在各种测评中表现良好,引起了研究者的广泛关注。本文的工作建立在基于短语的翻译模型基础上,力图通过改善短语模型的某些关键步骤或关键问题来提高短语翻译系统的性能。具体而言,论文围绕词语对齐、词语调序和语言模型等三方面展开了深入的研究,并取得了一系列成果。针对词语对齐问题,论文提出了一种基于多目标进化算法的词语对齐模型,首次将词语对齐问题描述成多目标优化问题并选择了一种高效的多目标进化算法——NSGA-Ⅱ来实现优化。该模型同时具有传统IBM模型无监督性的优点和基于区别性的模型易扩展性的优点。针对词语调序问题,论文提出了一种基于源语言组块调序的词语调序新模型。该模型将词语调序问题的处理作为短语翻译的预处理阶段,因而能很好地和短语模型配合使用。同时,该模型将词语调序问题的处理建立在源语言组块分析的基础上,因而既能利用源语言句法层面上的信息来指导调序,又不依赖完整句法分析,特别适合如汉英翻译这样源语言句法分析难度较大的情况。针对语言模型问题,论文在传统短语概念基础上提出了链接短语的概念并以此为基础将基于链语法的语言模型结合到基于短语的统计机器翻译模型中。首次实现将非句法的翻译模型与句法语言模型相结合,在保持短语模型总体框架不变的前提下借助句法语言模型的长距离预测能力来指导译文的选择。
其他文献
图像是人类获取信息的主要途径,而图像压缩在数字图像的处理、存储和传输中起着十分重要的作用。运动估计和运动补偿是消除视频信号时间冗余的主要方法,是视频压缩编码的关键
目的研究改良Soave术借助腹腔镜治疗新生儿先天性巨结肠的临床疗效。方法选择该院2010年3月至2013年7月收治的68例先天性巨结肠新生儿,分为两组,试验组(34例)住院后经系统检
目的探讨大肠癌患者血清癌胚抗原(CEA)、血管内皮生长因子(VEGF)和基质金属蛋白酶9(MMP-9)的变化及其临床意义。方法选择该院收治的大肠癌患者82例作为观察组,并选择同期该院体检健
现代仪器分析课程是环境科学专业学生重要的专业课程,为了提高教学质量,更好的培养学生分析问题和解决问题的能力,结合虚拟仿真技术、专题化教学体系,我们开展了该课程的应用性课
<正>1项目概况邱德拔医院位于新加坡北部的义顺镇,占地3.4hm2,总建筑面积10.8万m2,建筑高度48m。该项目由新加坡CPG咨询公司进行设计,曾获得过2009年度绿色标志白金奖、2010