基于数据增强的机器翻译质量评估方法研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:zhaoxiufen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着当今全球化进程的不断发展,机器翻译作为一种沟通不同语言的技术越来越重要。如何定量的评价机器产生的翻译结果在机器翻译领域是一个重要的问题,正被越来越多的研究者们所关注。机器翻译质量评估是指在给定原文以及机器翻译系统产生的译文时直接预测译文翻译质量的机器翻译评价方法,该方法并不依赖参考译文。传统的机器翻译质量评估方法需要人类专家针对原文语言以及译文语言设计特征,这种方法代价较大。之后研究者们使用深度学习模型自动的从机器翻译质量评估数据中提取特征,但是训练深度学习模型需要大量的有监督数据,而现有的质量评估数据规模教较小,限制了模型的性能。目前流行的方法是基于知识迁移的机器翻译质量评估方法,该方法能从大规模的平行语料中提取双语知识,而后将双语知识迁移到质量评估任务中。但是平行语料中并没有机器翻译译文中可能存在的翻译错误,同时也没有相应的质量标记。最终的机器翻译质量评估模型依旧只能在少量的质量评估数据上训练。为了解决现有工作的问题,本文提出使用数据增强的方法来伪造新的质量评估数据。本文的主要工作如下:1.针对质量评估数据获取困难,现有规模较小的问题,本文提出使用数据增强技术来扩充现有的机器翻译质量评估数据,最大程度上利用已有数据。具体上,本文尝试了根据译后编辑结果进行采样、对原文进行改述以及加入噪音等数据增强方式。本文所提出的数据增强方法能够在保持质量评估标签正确性的情况下使有限的机器翻译质量评估数据更加多样化,进而使模型可以更好地学到质量评估方面的特征,提升鲁棒性。2.针对平行语料与机器翻译质量评估语料分布不一致的问题,本文提出一种基于平行语料伪造质量评估数据的方法以及相应的训练框架,从而能够最大程度的利用现有平行语料,学习到更加适合机器翻译质量评估任务的双语知识。比起平行语料,本文提出的方法所伪造的数据与真实质量评估数据的分布更加接近。同时,基于伪造的质量评估数据,模型可以直接使用质量评估任务的方式进行预训练,而现有方法只能在平行语料上使用词预测作为训练目标。这使得本文提出的方法可以更好地从平行语料中学习质量评估所需要的特征。本文主要在WMT2017、2019英德语向的机器翻译质量评估任务数据集上进行实验,实验结果证明了本文提出的方法的有效性,并且可以达到并超过现有最好的机器翻译质量评估模型。
其他文献
目的 分析使用真空袋和Orfit架2种固定方法在宫颈癌调强放疗摆位精度上的差异,为临床决策提供参考。方法 选取2019-09-14-2020-11-02在本院进行调强放疗的56例宫颈癌患者为研究对象,其中28例患者使用仰卧位真空袋固定(真空袋组),另外28例患者使用俯卧位Orfit架固定(Orfit架组)。所有患者每次放疗前进行机载锥形束CT扫描,获得头脚、左右、前后平移方向误差和冠状位、矢状位、
《关于进一步深化税收征管改革的意见》(以下简称《意见》)是"十四五"时期税收发展的纲领性文件。学习贯彻好《意见》精神,对税务部门继国税地税"合作""合并"之后,深入推进以"合成"为主要特征的第三次税收征管变革,具有重要的指导意义。
期刊
“特别军事行动开始以来,一共瘫痪了2581个乌克兰军事目标”“俄军还击毁了897辆坦克和装甲车、95套多管火箭炮发射系统、336门火炮和迫击炮、662辆军用车辆和84架无人机……”这是俄罗斯国防部3月8日晚发布的信息,而此前乌克兰方面也展示了战绩,除了摧毁俄军290辆坦克、999辆各类装甲车、46架固定翼飞机,还“击毙了两名俄军少将军衔的军官”。
期刊
我国银行业金融机构正处于数字化转型的关键阶段,中台化转型成为越来越多的银行类金融机构的最优选择。但是,银行机构如何进行中台化转型成为一个难点。本文试图在银行机构数字化转型背景下,以广东农信的互联网中台构建为例,分析其互联网中台构建的思路、内容和步骤,最后给出银行业机构主要业务在数据方向及业务方向通用的中台搭建策略。
变电站常见的电压异常由母线单相接地、电压互感器高压熔丝或低压熔丝引起。单相接地引起的电压异常表现为故障相电压降低,非故障相电压升高,熔丝熔断引起电压异常表现为故障相电压降低,非故障相电压不变[1]。本文分析了一起电压互感器次级熔丝松动引起的母线电压异常,结合相量图和回路图分析异常原因,对运维措施和处理方法提出了有效建议。1异常概述某日,监控通知:某变电站10 kV I段母线计量、保护电压消失
期刊
信号正弦分量的频率和初相位估计是信号处理领域的一项基本任务,在电力系统、雷达、生物医学设备、科学仪器等诸多领域都有着广泛应用。实际中存在很多实时性要求高的场景,在这些场景下,我们拿到的待估计信号分量往往是短信号,我们希望基于短短的两三个周期甚至更短的信号分量,就能得到它频率和初相位的精确估值,这是一个很大的挑战。现有的信号分量参数估计方法,大多是对频率和初相位参数先估计完一个,再在前者的估值基础上
学位
行星齿轮传动具有效率高、传动平稳、抗冲击和振动的特点,在减速机构中常用到。传统设计中主要运用手册中的图表与力学中的公式进行齿轮参数设计,这种方式耗费时间长,工作量大,而得到系统的整体可靠性不高。现代设计中引入可靠性理论与优化设计算法,利用计算机工具,以保证系统的最大可靠性为原则,寻求最优的设计参数。
从20世纪70年代起,兰州市博物馆广泛征集陇籍书画名家作品,不断组织开放性、合作性的展示交流。书画作品现已成为兰州市博物馆最具规模的特色藏品之一。其中,清代画家唐琏的书画作品,已成为馆藏的珍贵文物,且内容丰富,是研究中国清代书画艺术的重要资料,更是甘肃美术史研究的宝贵证据。
期刊
法治兴则国兴,法治强则国强。2020年11月16日至17日召开的中央全面依法治国工作会议,确立了习近平法治思想在全面依法治国工作中的指导地位,为全面依法治国实践提供了根本遵循和行动指南。习近平法治思想立意高远,内涵丰富,思想深刻。广大法律、法学工作者应当认真学习领会习近平法治思想,吃透基本精神,把握核心要义,将习近平法治思想融入工作与研究的各个环节。为此,本刊特邀请中南财经政法大学刘茂林教授等六位
期刊