EBMT翻译模型自动构建研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:caochangzheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于实例的机器翻译方法具有系统实现周期短,容易对新的知识进行扩充,在限定领域下可以生成高质量的译文的优点。但是,由于在EBMT系统进行译文搜索的过程中往往只能依靠人为设定的启发式函数进行指导,对人为因素的依赖较大,很容易造成对某个限定领域特点的过度拟合。在系统进行领域移植时性能难以保证。而且,通常的EBMT翻译模型中难以对丰富的特征信息进行建模,使得EBMT的翻译性能受到很大限制。本文利用机器学习算法(最大熵方法)对EBMT的翻译模型进行了自动构建尝试。与以往依赖人为的启发式搜索函数不同,本文采用的方法在最大熵方法的构架下,融入了丰富的特征信息,力图构造出一个多维的特征空间,对翻译模型的一般特征进行整体建模。在模型训练过程中,为了尽量得到比较完整的译文空间,本文设计了一个可以控制的译文搜索算法。在对译文进行自动评价的过程中,本文根据需要对单句进行评价的需求,对仅适合于对整篇文档进行自动评价的评测指标BLEU进行了三个方面的修正。这种修正对相关的研究也很有借鉴意义。实验结果初步表明,本文提出的基于最大熵构架的EBMT翻译模型在性能上超过了原来的实验平台系统,同时也证明了丰富的特征有助于EBMT翻译性能的提高。在各种类型特征对性能的贡献分析中发现,在开放测试中词一级的特征对系统性能的贡献最大。
其他文献
随着计算机网络的快速发展,用户每天上网都会面临巨大的信息量,这就导致出现了信息过载。为了解决信息过载,最早出现的是搜索引擎。但是人们慢慢发现搜索引擎无法满足人们的个性
数据仓库作为一门新兴技术,正逐渐受到业界的重视并为企业带来了巨大效益。联机分析处理是数据仓库最重要的应用,它将数据仓库中的数据以立方体的形式进行组织,通过提供多维
论文首先通过对学生选课分析系统所需要的基础知识,即数据仓库技术、联机分析处理技术和相关数据分析工具等技术的研究,结合学生选课系统的特点,提出了将数据仓库和联机分析处理
作为一种简捷高效的信息管理方式,近年来,校园“一卡通”系统在国内得到了广泛的应用。然而,由于使用普通PC作为控制终端,国内现有的校园“一卡通”系统中,或多或少都存在一
目前,XML已经确立为我国电子公文规范的基础,在将来的电子政务中将以XML文件作为数据交换的中介。基于XML的政府招投标系统能很好的与其它电子政务系统进行数据交换,同时基于
近年来人们为了解决校园网内部资源安全问题,提出了各种安全解决方案,但均不同程度地存在着一些缺陷和不足,运行效果不太理想。本文在仔细研究各种安全方案的基础上,针对一直未能
XML作为网络数据交换和表示的一种标准,越来越受到人们的青睐,然而,随着在网络上发布的XML数据的不断增加,如何管理XML文档已经成了一个十分棘手的问题。目前的研究侧重于用关系
IP电话(Voice Over IP,VoIP)以其广阔的前景,先进的技术和廉价的费用越来越多的吸引了人们的注意力,并已逐渐成为人们生产和生活中新的主流语音通信方式。随着VoIP在企业级市
生物经过几千年的进化和残酷的优胜劣汰,在自然选择中扬长避短并健康的生长,试图以最好的状态适应大自然。人类作为高等动物之一,被称为是“万物之灵”,拥有很多很奇妙的能力
容侵技术的发展,其目的是为了在系统遭受攻击时维持一定的生存性,并且保证能够使得入侵的损害能够被发现和通过一定的技术使得系统恢复到正常状态。目前对于计算机系统中的失