【摘 要】
:
机器翻译使用计算机算法实现不同自然语言之间的自动转换,具有很高的理论与应用研究价值。近年来,随着深度学习技术的发展,神经机器翻译取得了新的突破,在效果上完全超越了传统的统计机器翻译系统。尽管神经机器翻译的翻译效果在各方面都有大幅度的提升,但在长句的翻译上仍不尽人意。这是由于长句结构复杂,且目前的翻译模型记忆能力有限;此外,在图片翻译、语音翻译等实际任务中,标点符号的缺失则进一步制约了长句的翻译效果
论文部分内容阅读
机器翻译使用计算机算法实现不同自然语言之间的自动转换,具有很高的理论与应用研究价值。近年来,随着深度学习技术的发展,神经机器翻译取得了新的突破,在效果上完全超越了传统的统计机器翻译系统。尽管神经机器翻译的翻译效果在各方面都有大幅度的提升,但在长句的翻译上仍不尽人意。这是由于长句结构复杂,且目前的翻译模型记忆能力有限;此外,在图片翻译、语音翻译等实际任务中,标点符号的缺失则进一步制约了长句的翻译效果。本文主要围绕这两个方面的问题展开研究,旨在通过提高模型的记忆能力及解决语音翻译中的标点符号缺失问题,来提升长句的机器译文质量。本文的主要工作及创新点如下:1.为了提升翻译模型的记忆能力,提出基于循环专家单元的神经机器翻译模型。循环专家单元使用多个专家单元提高循环神经网络的参数能力,并设置了一个上下文感知的门控函数,以平衡来自不同专家的信息流,最后引入了 top-k门控函数以减少计算复杂度。在WMT17中英和WMT14英德数据集上的机器翻译实验结果表明,本文提出的方法可以显著改善神经机器翻译的翻译质量,特别对长句的译文质量提升效果明显。2.为了解决标点缺失问题,提出基于BERT和Focal Loss的标点恢复方法。该方法利用BERT提取较强的语义特征,并使用Focal Loss作为模型训练过程中的损失函数来缓解有无标点的样本不平衡问题。本文通过语音翻译任务来验证标点恢复模型的有效性,在自建的中英和IWSLT15英德两个数据集上的语音翻译实验的结果表明,基于BERT和Focal Loss的标点恢复方法显著改善了机器译文的质量,包括长句的翻译。
其他文献
2013年确立认缴制以后,股东可自由的对出资期限和数额进行约定,对债权人保护不利,产生了能否使未届期股东的出资加速到期的问题,然而现行的法律法规不能解决这一问题,理论和实务界也不能达成一致的观点。论文的具体内容分成为以下几个部分:在引言部分,以贵阳XX房地产有限公司因债务到期与认缴资本未到期引发的法律争议问题为导引,引出本文的论题。第一章探讨了加速到期的基础理论。通过对认缴制背景的探讨,明确认缴制
混合式液压-机械无级传动(Compound Coupled Hydro-mechanical Transmission,CCHMT),又被称为混合式液压-机械功率分流传动,是液压-机械复合传动的一种。CCHMT结合了液压传动和机械传动各自的特性,利用两组行星轮系,运行过程中同时进行功率的分流和耦合。与传统的功率分流式液压-机械无级传动相比,具有调速范围广、传动效率高、结构方案多等优点,在特种作业车
公众号平台是企业商家维护客户服务的重要载体,带给企业商家铁杆粉丝的同时,还能为社群电商提供推广宣传。从整个网络中获取自己准确的客户定位是每个广告投放者的需求。因此本研究针对社群电商对于广告投放于微信公众平台这一策略,通过数据挖掘及机器学习方法整合出了一套基于微信公众平台广告投放爆点文章的预测推荐分类算法分析应用。对于微信公众平台刚刚发布的新文章,通过对公众号影响力和文章本身潜力做分析,结合基于CA
减少贫困和消除贫困,是世界各国的共同奋斗目标。按照国家相关贫困标准,改革开放以来,我国农村贫困人口减少7.4亿人,贫困发生率也从97.5%下降至3.1%。位于中国西部内陆的甘肃省,近年来,将脱贫工作作为全局工作的“一号工程”,减贫成绩突出,但由于致贫原因复杂、贫困人口总量大、贫困程度深等原因,使得减贫的边际效应越来越低。在全面建成小康社会的关键时刻,本文将甘肃省农村最低生活保障制度减贫效应作为研究
【目的】乌头碱(Aconotine)是乌头属植物所含生物碱的主要成分,具有广泛的药用价值。但其治疗剂量与致死剂量接近,中毒时可因严重的心律失常而致死。乌头碱毒理、药理学机制错综复杂,其心脏毒性机制尚不明确。心律失常的临床表现多样,病因复杂。钙离子在机体的各项功能调控、特别是细胞水平上扮演重要的角色,细胞膜及肌浆网上钙调蛋白种类多、各自具有不同的功能,受到各种信号通路复杂的调节。受磷蛋白(phosp
随钻NMR测井仪在测井过程中长时间工作在恶劣环境条件下,对仪器可靠性要求极高。控制电路是NMR测井仪的重要组成部分,为提高其可靠性并加快仪器研发和生产进度,本文设计了用于控制电路进行可靠性试验的自动测试系统。论文分析了HALT&HASS可靠性试验对于提高电路可靠性的作用,根据随钻NMR测井控制电路的功能特点和实际应用背景确定了电路的测试内容及指标,并对系统总体框架进行了设计。系统硬件由中央控制模块
在经济结构转型、产业结构转变和生态保护的现实背景下,全要素生产率是判断经济发展适应性的标志,产业结构调整是减少污染物质排放、加快动能转化、优化资源配置的重要动力,环境规制是推动产业结构调整和促进全要素生产率提高的重要手段之一,但我国各区域发展的不平衡现象较为严重,不同省际间既相互协作又相互竞争。对此,本研究基于2007-2017年我国省际全要素生产率的空间相关性与区域的异质性特征,运用地理空间权重
行人再识别是目前计算机视觉热门的研究方向之一,可广泛应用于智能视频监控、智能安防等领域,因此受到了越来越多人的关注。具体指在无重叠视域的摄像头场景下,对于给定的某行人图片,从大量的数据集中检索出具有相同身份的行人图片。背景杂乱、数据集规模缺乏以及遮挡等问题是影响行人再识别准确率的重要因素。因此,研究如何对行人图片学习到更具判别力的特征表示,并且消除背景杂乱、遮挡等问题对于行人再识别方向的干扰,是一
今年以来,泰山旅游集团紧紧围绕全市经济发展大局和市国资委中心工作,强党建、攻项目、提效益,将提质增效抓得好不好、企业发展质量高不高作为党史学习教育的重要标尺,以党史学习教育的实际成效推动国企高质量发展。
传统村落指拥有物质形态和非物质形态文化遗产,具有较高的历史、文化、科学、艺术、社会、经济价值的村落。在高速城镇化的背景下,原本相对稳定的传统村落也在结构、生活方式方面也遭受着巨大的冲击。基于文化景观转型这一动态的视角,从文化景观变迁的历史过程中获取经验,是探索传统村落可持续发展的有效途径,这符合传统村落居民的切实需求,也契合了乡村振兴战略,对促进我国经济欠发达地区的传统村落的发展有一定的参考意义。