基于少量标注的合金材料实体识别方法研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:smiletonyfrank
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网数据的不断积累,材料领域文本中包含的大量领域信息成为研究人员的关注重点。自然语言处理作为人工智能研究中的一个关键领域,能够帮助机器分析并获取人类自然语言的重要特征。命名实体识别作为自然语言处理的基础,可以提取特定领域所关注语料中包含的信息。材料领域的命名实体识别由于其语料的特殊性和专业性,在材料文本挖掘的有关研究工作中受到广泛关注。而标注语料的缺乏己经成为影响命名实体识别应用到材料领域的最大瓶颈之一。因此面向材料领域的材料实体识别(material entity recognition,MER)的方法研究具有十分重要的意义。本文主要以合金材料相关英文语料为研究对象,借助主动学习和预训练语言模型,从大量无标注英文语料中选取有效扩充语料进行标注。该方法有效减少了人工标注成本,提升了合金材料语料上的MER模型的泛化能力,并且对于缺乏标注数据场景下的英文命名实体识别任务具有一定的普适性。此外,针对合金材料领域语料实体特征,使用混合命名实体识别方法,进一步提升合金材料实体识别的准确性。本文研究工作主要包括以下内容:(1)面向缺乏标注数据场景下的命名实体识别任务,使用零实体样本筛选模型辅助进行样本选择,并通过改进主动学习样本选择策略,减少人工标注数据成本。将该方法应用于合金材料实体识别任务,通过对比不同主动学习方法和文本数据增强方法对少量初始训练集对于模型泛化能力的提升效果,证明了该主动学习方法可以更快提升模型泛化能力。(2)基于ALBERT(A Lite BERT)预训练语言模型与条件随机场(conditional random field,CRF)进行联合建模,并将预训练模型基于主动学习应用于合金材料实体识别。实验证明结合预训练和主动学习能够进一步减少实体识别任务模型对标注数据的依赖以及人工标注的成本。此外,对不同命名实体识别方法得到的合金材料实体识别结果进行合并,提升了合金材料实体识别的准确性。
其他文献
随着我国行政体制改革的深化,积极提升公共服务,建立以服务为导向的电子政府已经成为我国电子政务发展的核心。政府部门应根据相关法律法规,明确其服务职能与服务内容,利用政
信息中心网络(Information-Centric Network,ICN)解耦数据与网络位置的关系,基于内容标识进行数据转发,克服了现有IP网络面临的移动性、安全性和可扩展性等问题。ICN网内缓存通过泛在化的节点缓存能力,使得内容的获取更加高效。然而,ICN网络边缘侧存在大量的移动接入设备,海量的数据请求和接入点移动切换造成的内容失效,导致有限的缓存空间对现有服务请求的支撑力有限。因此,结合I
随着我国建筑市场的发展,建设工程合同作为协调参与建设工程的各方关系的纽带,对其进行有效的管理越来越引起各参建单位的重视。在我国,建设工程合同管理的实践中仍然还存在着合同双方法律意识淡薄、合同管理体系和合同管理方法落后以及专业人才匮乏等顽疾。这些弊病的存在严重阻碍了我国建设工程合同管理水平的提高及企业的发展。为了在竞争激烈的建筑市场上谋求生求与发展,建筑开发企业都在提高建设工程合同管理水平。2016
矿山电网的稳定运行对保障矿山安全生产和矿山工人人身安全具有重要的意义。随着矿山电网规模的扩大,其原有的基于人工巡线的故障搜寻以及处理方式已经不能满足矿山企业的生产需求。高精度、高采样频率的采集设备也在矿山电网中推广运行,以行波为主的故障定位方法也逐步的应用于矿山电网,并且取得了一定的应用成果。然而,矿山电网短线路众多,且矿山设备容易产生复杂的高次谐波和高频噪声,高次谐波和高频噪声严重影响了行波波头
线粒体外膜介导线粒体代谢和遗传系统与真核细胞其余组分之间的许多相互作用,因此,线粒体外膜蛋白在细胞器遗传和形态中起关键作用。大规模定位研究发现粟酒裂殖酵母蛋白Mrz1定位于线粒体和细胞核,进一步研究发现Mrz1定位于线粒体外膜与细胞核,其RING指结构域与泛素蛋白酶体系统(UPS)有相关联系,但蛋白功能未知。本研究通过免疫印记分析方法检测到Mrz1在细胞生长后期蛋白表达水平降低,q RT-PCR方
近几十年来,随着中国经济的快速发展以及城市化进程的加快,装饰装修业也步入了飞速发展阶段。从依附于建筑业的小行业逐步成长为一个独立的大行业,变化可谓翻天覆地。但行业在高速发展的同时,各种因装饰装修引起的法律纠纷也此起彼伏,对此,最高院将装饰装修合同纠纷纳入民事案由之中,作为建设工程合同纠纷项下的第四级案由。装饰装修合同纠纷案件在司法实践中频繁出现,合同涉及的事项繁琐、履行阶段较多、合同内容专业性较强
Toll样受体(Toll-like receptor,TLRs)是生物体重要的模式识别受体(Pattern recognition receptors,PRRs),在抵御病原微生物侵袭过程中发挥着重要的免疫作用。梭鱼(Liza haematocheila)是我国沿海地区重要的经济水产养殖鱼类,为鲻形目(Mugiliformes)鲻科(Mugilidae)代表鱼种。随着梭鱼养殖规模的扩大,关于梭鱼疾
新浪微博作为国内代表性社交媒体平台于2009年诞生以来不断发展,其自身定位为“全媒体格式的社交网络”,是用户在线创造与分享的社交媒体平台。新浪微博强化社交属性,坚持内容全媒体化,进一步完善图文、视频、直播等功能;在内容上深耕垂直领域,满足用户多元需求,自诞生来逐步成为国内头部社交媒体应用。作为以广告营收为主的微博,近年来广告收入的缩水其背后正是用户参与度的下滑,用户微博使用倦怠的问题。随着微博移动
在巴斯德毕赤酵母(Pichia pastoris)上已鉴定ATG26为激活过氧化物酶体自噬的因子,在炭疽病菌中发现,缺失Co ATG26会导致ΔCo ATG26在PDA培养基上的生长速率变慢,致病性降低。但是FgATG26在禾谷镰孢中的功能还不明确。在本研究中,我们首先通过同源重组的方法敲除FgATG26基因,得到突变体ΔFgATG26,并回补得到回补体ΔFgATG26-C。ΔFgATG26在培养
近年来,工业企业肩负着推动泛珠江经济带经济建设的重担,在跨省区合作发展中发挥着关键作用。然则工业化进程的大力推动,背后的牺牲却是生态环境被严重污染、自然资源被无止境消耗等其他难以忽略的现象。除此之外,由于生产技术的落后和创新能力的不足,导致很多工业企业在生产过程中无法同时实现经济增长和环境友好的目标,从而违背了可持续发展的生产理念。一方面,创新能解决当前我国存在已久的经济发展矛盾;另一方面,绿色创