面向受限领域的汉蒙统计机器翻译方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:cookie2189
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,机器翻译研究得到了学术界和工业界的极大重视,翻译性能不断提高。蒙古语作为我国重要的少数民族语言之一,汉蒙统计机器翻译的研究也同样受到了广泛重视。然而,汉蒙统计机器翻译在数据稀疏、语序差异、形态差异上面临很大的挑战。由于人工构建语料库费时费力,且短期内难以扩充到很大规模。因此,从研究方法上针对汉蒙机器翻译面临的主要困难进行改进,对于提升汉蒙机器翻译的译文质量,推动机器翻译在专业领域的应用,具有重要的意义。本文在有限平行语料背景下,针对受限领域汉蒙机器翻译面临的形态差异、语序差异、数据稀疏,开展了五项关键技术研究:融合未标注文本信息的蒙古语形态切分、词素化加权模型、基于同义词的调序模型、基于词素媒介的翻译方法、系统融合。论文的主要工作和创新点归纳如下:1、针对汉蒙形态非对称,提出了一种融合未标注文本信息的蒙古语形态切分方法。蒙古语是形态丰富的黏着语,而汉语是孤立语,汉蒙之间的形态差异给机器翻译建模带来了极大地挑战。本文提出了一种融合未标注文本信息的形态切分方法。首先使用条件随机场结合标注数据对蒙古语切分,然后针对切分错误,提出了一种基于词汇的切分模型,该模型将标注数据作为启发式信息,从大量未标注文本中学习到对切分有帮助的知识。最后,本文提出了错误修正方法。2、针对短语翻译概率估计不准确,提出了一种词素化加权模型。汉蒙数据稀疏导致翻译模型中的短语翻译概率的估计不够准确,相应概率信息不足以体现短语对之间互译的可靠性。本文提出了一种词素化加权的方法,通过对蒙古语词序列分解为词素序列,进而对短语翻译概率进行更好地估计。另外,本文提出了三种融合策略将词素化加权融入汉蒙机器翻译基线系统中。实验结果表明,该方法可以更合理地对短语对之间互译可靠性进行估计。3、针对汉蒙语序差异大,提出了一种融入汉语同义词信息的调序模型。汉蒙语序差异大且面临严重的数据稀疏,调序问题一直是汉蒙机器翻译面临的主要困难之一。本文将汉语同义词信息融入调序模型的建模过程中。本文假设同义词或者同义短语在某种程度上可以共享调序实例,这样就可以消解数据稀疏对调序模型的影响。此外,本文将基于同义词的调序模型以特征函数的方式融入基线翻译系统中,改善了译文的流利度。4、针对汉蒙短语对规模较小,提出了一种基于词素媒介的翻译方法。由于汉蒙双语平行语料库的规模较小,从平行语料中抽取出来的短语对的规模也较小,这严重地制约了汉蒙机器翻译的性能。本文从蒙古语的形态特征出发,将蒙古语词素作为媒介,构建汉语—蒙古语词素、蒙古语词素—蒙古语机器翻译系统。在不增加双语语料的基础上,在短语层面上通过这两个机器翻译系统的短语翻译表和调序模型构建出新的翻译知识。构建出来的短语翻译表和调序模型分别以多路径解码和特征函数的形式融入基线系统中。5、采用系统融合策略作为统一框架,将词素化加权模型、基于同义词的调序模型、基于词素媒介的翻译方法有机融合。本文提出了词素化加权模型、基于同义词的调序模型、基于词素媒介的翻译方法,分别消解了汉蒙统计机器翻译中的短语翻译概率的估计不够准确、汉蒙语序差异大、短语对规模较小等问题。本文对这三个方法分别与基线系统融合而产生的不同n-best列表进行词汇级别系统融合,并采用基于TER的方法进行翻译假设的对齐。实验结果显示,系统融合可以进一步显著提高译文的质量。本文实验采用的训练集规模为67288句对日常用语、22万词条双语词典和500句对农业双语语料。另外,在日常用语中使用的测试语料为500句对,农业领域中所使用的测试语料为200句对。在日常用语测试集上,本文方法的机器翻译BLEU值最高提升2.16个百分点;在农业领域测试集上,本文方法的机器翻译BLEU值最高提升3.36个百分点。
其他文献
以聚碳酸亚丙酯二元醇(PPC)为软段,1,4-丁二醇(BDO)和甲苯二异氰酸酯(TDI)为硬段,二羟甲基丙酸(DMPA)为亲水扩链剂,三羟甲基丙烷(TMP)为交联剂,通过环氧树脂改性,制得一种新型的环氧改
上海华谊精细化工有限公司(以下简称“华谊精化”)(原上海涂料有限公司)于2015年正式更名成立。一个世纪以来,华谊精化在多次整合变革中规模日益扩大,2014年实现工业现价总产值73.97
通过实验,分析了影响消失模涂料常温强度的主要因素,确定了不同因素的影响趋势,找到了获得最佳常温强度的黏结剂的用量。
行为金融学认为,投资决策的成败80%是由心理因素决定的。贪婪、恐惧和不确定有如鬼魅一般,随着股价的起伏,不断扰乱着A股投资者的心境,导致他们做出错误的决断,备受心理和市