面向医疗领域的中英机器翻译研究

来源 :大连理工大学 | 被引量 : 1次 | 上传用户：lichengjing626

【摘要】

：

【作者】

：

张一鸣

【机构】

：

大连理工大学

【出处】

：

大连理工大学

【发表日期】

：

2021年01期

【关键词】

：

神经机器翻译医疗领域数据泛化数据增强领域自适应

【基金项目】

：

科技部科技创新2030“新一代人工智能”重大项目“以中文为核心的多语种自动翻译研究”（2020AAA0108004）；国家自然科学基金项目“面向大规模汉语新闻语料的实体抽取与自动摘要研究”（U1936109）；

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

神经机器翻译系统在双语句对齐资源丰富的场景下可以提供最先进的翻译性能。然而,对于医疗领域,域内语料资源的稀缺严重影响了翻译系统的性能。同时,医疗领域存在着大量的医学术语,机器翻译系统在低频术语的翻译上也往往表现不佳。面向双语句对齐资源丰富的新闻领域,提出了一种融合数据增强与多样化解码的神经机器翻译方法。首先,对语料中不同种类的未登录词进行泛化以缓解词汇稀疏的现象。其次,采用数据增强中的正向翻译技术,利用单语句子来构造伪双语数据以扩充双语语料规模。最后,在解码阶段联合检查点平均、模型集成、重打分等多种策略从生成的多个译文候选中选取最优翻译。实验结果显示,数据泛化能够有效地减少语料中未登录词的数量,在RNNSearch模型和Transformer模型上分别可以取得2.45%和2.52%的BLEU值提升。在Transformer的基础上,加入数据增强技术和多样化的解码策略也能有效增强模型,BLEU值分别得到了 3.48%和1.41%的提升。为提升低资源条件下跨领域神经机器翻译系统的性能,以新闻领域的翻译模型为基础,提出了一种基于领域自适应的医疗领域机器翻译方法。首先,针对翻译质量较差的低频术语词汇,使用医学词典和规则对其进行泛化;其次,在资源稀缺的条件下,采用回译技术仅利用领域单语语料来构造伪双语语料;之后,使用伪双语语料对新闻领域的基线模型进行微调以获得领域翻译模型;最后,引入支持向量机来改进微调训练过程,基于领域类别和相关程度对伪双语语料进行筛选和排序。实验结果表明,该方法相对于基线系统可以获得11.59%的BLEU值提升。

其他文献

基于数字图像的三轴试验土样体变测量方法研究

在土工三轴试验的力学性能测试过程中,土样体积变化的测量是非常重要的环节。对于饱和土,土样体积变化的测量技术相对成熟,可利用量筒间接测量流体吸入或排出饱和试样的体积来实现。然而,对于非饱和土,土样内部不可避免地存在空隙、气泡等,传统饱和土体积变化的测量手段已无法准确测量非饱和土的状况。数字图像技术因其测量精度高、不扰动试样,在土样体积变化测量方面具有显著的优势。本论文引入数字图像测量技术开展土样体积

学位

三轴试验体变测量亚像素边缘检测轮廓法三维重建

基于知识蒸馏策略和级联网络的深度估计方法

单目深度估计是计算机视觉领域中一项重要而具有挑战性的任务,而且在三维场景重建、无人驾驶、医学图像处理、现代化军事以及智能交通系统中都发挥关键性作用。其目的在于估计出RGB图像中每一像素点的深度信息。基于深度学习的深度估计流程为:首先输入一张二维图像,然后进入卷积神经网络即编码器-解码器结构,最后估计出图像中场景的深度值。在深度估计的过程中,网络模型的精确度往往会受到图像尺度与场景环境的影响。尽管目

学位

单目深度估计级联网络知识蒸馏策略分布一致性

面向社交媒体的健康监测研究

使用社交媒体平台是如今大部分人日常生活的一大特色。人们喜欢在互联网上分享自己的感受、趣闻轶事、大事小情,包括自己的身体状况、病情、用药等等。这同时也为自然语言处理工作带来了源源不断的数据资源。健康已经成为全世界最为关注的问题之一,它与我们每一个人都息息相关,并且在生活中扮演越来越重要的角色。将机器学习以及深度学习方法应用于生物医学领域是一种新的发展趋势,并将带来更大的发展。而社交媒体数据是由用户自

学位

自然语言处理社交媒体情感计算幸福感生物信息学

大型构件局部特征加工定位点测量方法研究

为满足我国近年来航空航天事业的发展需要,对大型构件的高效高精加工提出了新的要求,而数字化测量技术是保证加工过程高精、高效、高鲁棒的关键。目前,国内外航空航天业已经对工业生产中的测量技术进行了大量研究,其中视觉测量作为一种非接触式测量方法,具有数据采集快速、高精高效、便于移动、能够三维测量等优点,受到了工业界的充分研究和重视。本文主要研究了基于双目视觉的大型航空航天构件加工过程中局部加工定位点的高精

学位

双目立体视觉卷积神经网络数据拼接MDH模型手眼标定

车联网中存储资源优化的轻量级区块链设计

轻量级区块链继承了传统区块链的优势,对数据的安全性加以保障,同时结合移动边缘计算理念,避免了对计算和存储资源的过度依赖,满足了车联网边缘节点的实际需求。恰当的人工智能算法可根据车辆需求和上报数据的变化,有效地决定和分配不同地区的数据缓存,以避免数据与地域兴趣不匹配,从而间接影响车辆行驶过程中的数据卡顿等问题。本文结合现有的车联网特点和区块链技术,提出了一种轻量级区块链应用于车联网的架构,并引入协同

学位

轻量级区块链车联网协同缓存区块替换

基于web的定制产品用户评论情感分析系统

定制产品设计和生产制造过程中,制造商常邀请用户通过虚拟体验等方式感知产品性能。通过分析用户完成产品体验后发表的用户评价,了解产品设计的不足与缺陷,从而有针对性的完善产品性能,使定制产品更加适应用户需求。情感分析技术是一种基于句法分析和机器学习的文本观点提取与情感判断方法,在文本数据分析处理过程中,它可以基于文本数据近似模拟出文本特征与其情感倾向的关系。与人工分析文本相比,文本情感分析技术能够有效缩

学位

情感分析用户评论定制产品电梯在线系统

基于人体运动的情绪识别

目前,随着信息时代的高速发展和计算机计算能力的不断提高,人机交互的情绪识别是发展最快的研究领域之一。为了提高人机交互的效率,增强计算机识别情绪的能力是十分重要的。当前情绪识别的研究大多集中于人的面部表情、声音、文本等方面,而人体运动的情绪识别任务较少受到关注。然而,日常生活场景较为复杂,可能出现面部表情、语音等失效的情况,这时空间尺度更大的肢体动作情绪识别往往能够发挥更大的作用。现有的情绪识别数据

学位

情绪识别人体运动拉班运动分析注意力机制深度学习

法律文书命名实体识别研究

近年来,国家司法改革不断深化,随着司法机构数字化程度不断提高,法律文本数据信息出现了指数级的急速增长,海量司法文书的高效分析与处理成为亟待解决的问题,相关问题的研究也受到研究者的广泛关注。法律文书的命名实体识别,作为司法人工智能领域的关键性和基础性的工作,在法律问答、刑期预判和司法知识图谱构建等任务中起着重要应用。命名实体识别的研究推动了司法人工智能下游任务的发展,但目前司法命名实体识别的研究还处

学位

司法命名实体识别对抗迁移学习机器阅读理解预训练语言模型

基于多合一模型和深度先验的图像去雾算法

雾霾是一种常见的大气现象,是空气中悬浮的微小颗粒物（灰尘、烟、微小水滴等）组成的气溶胶系统。在户外拍摄图像时,雾霾的存在常常会使得拍摄的图像出现对比度降低、整体色彩变淡等现象,导致图像的可视化效果变差,影响到后续的高层计算机视觉任务。因此,去除图像中雾霾的影响是一项很有意义的研究。对于图像去雾问题的研究,主要有基于图像增强、基于物理模型和基于深度学习这三种类型的方法。基于增强的方法属于较早期的研究

学位

图像去雾透射率估计多合一模型深度图像先验

政务知识图谱的构建方法研究

随着政务系统信息化程度的不断提高,各级政府机关在日常工作中积累了大量的数据。一方面,这些宝贵的数据资源有助于提高各职能机构的运转效率,促进社会经济发展;另一方面,由于政务数据的专业性和复杂性,使得人工提取数据中蕴含的海量信息变得难以实现。近年来自然语言处理技术的飞速发展,为信息自动化提取和数据高效利用奠定了坚实基础。然而政府机关对数据精度的要求较高,现有的算法未能充分利用该领域的文本特征,不能很好

学位

深度学习政务知识图谱实体识别关系抽取

面向医疗领域的中英机器翻译研究

其他学术论文