基于在线适应的机器翻译后编辑研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wlq808
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的机器翻译模型使用批量学习的方法进行参数优化。随着稀疏特征等概念的提出,批量学习方法已经远远无法满足现有的需要,在线学习技术逐渐进入了人们的视野。一些研究者提出了在线适应的学习框架,不仅对特征权重进行调节,而且能够对特征函数进行实时地修改。另一方面,机器翻译自动后编辑技术已经被证明能够显著提升人工编辑的效率,并且对于译文质量也有一定程度的提高。为此,本文对基于在线适应的机器翻译后编辑进行了研究,主要的研究内容分为如下几个方面:(1)在线适应模型研究。在方法层面使用相同规模的数据上对比了传统的批量学习方法与在线适应方法的性能。在系统层面比较了自动后编辑系统与机器翻译系统的区别。在模型层面针对在线适应的三个模型参数——迭代次数、kbest列表长度以及最大更新步长分别进行了探究实验。(2)基于主动学习的在线适应后编辑研究。提出了一种主动学习的方法并将其应用于在线适应的学习过程中。首先分别对学习开始时和学习结束时的句子级BLEU得分进行计算,并利用BLEU的涨幅为每一个句子标注类别。然后保留所有类别为正的句子进行下一阶段的主动学习。另外,还保留最优测试集的特征权重并对训练集进行解码,以便查看主动学习方法对于大规模测试集的性能。(3)基于规则表过滤的在线适应后编辑研究。提出了一种规则表过滤的方法期待提升译文质量。首先分别从开发集和测试集中抽取解码用到的规则,然后探究每条规则对于解码性能的影响。把能够增大解码收益的规则设定为正例,把减小解码收益的规则设定为负例。在确定了类别标签后,使用TM特征和自定义的特征训练SVM的分类模型,并最后对测试集的解码规则表进行预测。这种做法的实质是对解码时搜索路径的一种优化。
其他文献
网络入侵检测是保障计算机网络安全的重要技术,现行的入侵检测主要是依靠领域专家的经验和知识,难以应对各式各样的网络攻击。本文在对网络入侵检测的研究现状进行分析之后,
氧气在医疗、冶金和化学工业等领域有着广泛的应用,而这些应用,对氧气的浓度都有着严格的要求。因此,以一种便于使用的方式,精确地测量氧气浓度,对提高产品质量、保证生产环
问答系统是目前自然语言处理领域中的研究热点之一,它以精准的答案直接回答用户以自然语言方式表达的问题。在问题分析时,提取问题中的关键词对于理解其语义至关重要;在问题
随着网络技术的发展,大规模分布式计算及数据共享技术的进步,分布式数据流已经广泛存在于金融风险分析、无线传感器网络、网络入侵检测等应用中,发现其中蕴含的知识是目前国
随着人类基因组计划的完成,生命科学进入了一个前所未有的新时代。生物学家们通过DNA微阵列技术能够同时检测成千上万个基因,使得他们对肿瘤细胞有了一个宏观的认识。然而由于
随着移动计算和移动智能终端的迅速发展,移动网络数据库作为一种新型数据库系统得到广泛应用。但是,由于其所处的无线网络端端延迟大、带宽有限,影响了移动网络数据库的访问
序列图像超分辨率重建是指利用已有的低分辨率(Low Resolution,LR)图像序列中的冗余信息融合成一幅对应的高分辨率(High Resolution,HR)图像的技术。这项技术可以克服成像系
当计算机的应用渗透到社会各领域,信息系统的安全,特别是数据库的安全,至关重要。对数据库进行加密是在非可信环境下保护数据安全的一种有效方法。然而在多数情况下,现有的数
旅客伤亡管理系统是一个基于B/S (Browser/Server,浏览器/服务器)的Web应用系统。随着社会的发展,基于B/S架构的Web应用系统规模逐渐增大,系统开发的复杂程度也达到了前所未有
本论文的研究背景是西南交通大学四川省网络通信技术重点实验室进行的有关下一代Internet(NGI)体系结构的研究工作——“单物理层用户数据交换平台体系结构”(SUPA-Single ph