基于预训练和GAT的事件抽取模型研究

来源 :中南财经政法大学 | 被引量 : 0次 | 上传用户:sujinquan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
事件抽取是信息抽取三大任务之一,通过将文本中事件的信息识别出来,并且把非结构化文本的事件信息用统一结构集成呈现出来,可有效地从海量的非结构化文本数据中获取关键信息,其模型效果的好坏会影响到知识图谱、实体抽取、关系抽取等下游自然语言任务的性能。目前,对于商品新闻领域的事件抽取研究较少,为促进这一领域的发展,本文主要是基于CNC数据集来展开事件抽取模型的研究。本文旨在探究事件检测和论元识别两个事件抽取的子任务。尽管现有研究已经取得了一定进展,但仍存在以下三个问题。首先,现有事件检测方法大多利用句子的顺序结构来构造神经网络模型,这种建模的方式在捕获长距离依赖关系的事件信息时效率较低。虽然后来有利用到依存树中的依赖弧构造图卷积模型来解决顺序建模的问题,但是在此过程中,分配给每个节点的权重一样,未能有效考虑节点的关键信息。其次,在研究事件抽取的两个子任务时,一般是采用先进行触发词分类再进行论元识别的管道式抽取,这样会造成联级错误,将其中识别错误的触发词信息传递给论元,使得两个子任务的效果都变差。第三,模型的初始词向量嵌入如果表示程度欠缺,就难以捕捉句子深层的双向表征,致使触发词一词多义的问题。为解决上述问题,本文的主要工作包括以下两点:(1)针对顺序建模无法捕捉事件长距离依赖信息和图卷积模型未考虑关键节点信息问题,本文提出了一个基于图注意的事件检测模型(Graph Attention Network Event Detection,GATED)。该模型首先使用BERT作为词向量嵌入部分,利用Bi LSTM学习上下文信息,并用GAT模型来加权节点的信息,使节点特征之间的相关性能更好的融合到模型中,提高其自适应性。本文在CNC数据集上进行实验研究,其中GATED的模型效果优于传统的基线方法,F1值为0.9463。为提升模型的稳健性,本文对模型的基本参数进行了扩展实验,探究了GAT隐藏层的维度、学习率的大小、GAT堆叠的层数、丢失率的大小对触发词分类的影响。(2)针对管道式抽取的联级错误和词向量嵌入特征欠佳的问题,本文提出了一个基于预训练的联合事件抽取模型(Pre-training Language Graph Event Extraction,PLGEE)。在模型的编码层部分,本文对比了BERT、ALBERT、Ro BERTa和XLNet四种预训练方法在事件抽取研究中的效果,并分析其优劣。在特征提取层部分,延用了Bi LSTM和GAT来编码上下文信息并融合依赖弧中的语法信息。在池化操作部分,对比了和池、平均池与最大池的三种选择器。在解码层部分,通过共享编码层和特征提取层的参数,然后采用联合抽取的方式,同时进行触发词和论元角色的分类,联合二者的损失函数,共同提升两个子任务的性能。通过基础实验和扩展实验表明,联合事件抽取模型在效果上优于传统的基线模型。并且采用XLNet作为预训练模型能更好的解决嵌入特征欠佳的问题。综上所示,本文提出的GATED的事件检测模型,在触发词分类的任务上,相较基线方法取得了效果上的提升。此外,提出的PLGEE事件抽取模型,在图注意模型的基础上,结合触发词和论元分类两个子任务的联合学习,并利用XLNet的预训练加强句子特征表示,能有效提升事件抽取两个子任务的效果。
其他文献
目的:胰腺导管腺癌(PDAC)是恶性程度极高,患者预后极差的癌症之一,目前尚无很好的诊断和治疗方法。激素作为体内传递信息的信使,不仅参与机体内正常的生理过程,而且在许多肿瘤的发生发展中起着非常重要的作用。催乳素受体(PRLR)在体内各个组织和器官几乎均有表达,且发挥着非常广泛的生物学作用。已经有许多研究阐明催乳素受体在乳腺癌和前列腺癌等癌症中发挥作用所涉及的信号通路和分子机制,而在PDAC中却少有
学位
党的十九届五中全会强调,促进高校毕业生就业是就业工作的重中之重。根据教育部发布的数据显示,2022年高校毕业生规模预计1076万人,同比增加167万,高校毕业生就业形势复杂严峻,就业工作任务艰巨。大学毕业生进入企业成为新员工,由于自我期望过高、难以适应工作环境、缺乏情感支持等原因难免产生失落、沮丧、焦虑等负面情绪,导致工作效率低下、离职率高,因此解决新员工负面情绪问题,提高工作效率,降低新员工离职
学位
公益事业作为社会保障的补充,它在一定程度上可以调节贫富差距,维护社会稳定、健康发展。随着信息技术的快速发展和网络的普及,催生和增强了公众的权力和责任意识,使得我国的公益力量不断发展。全国志愿者服务信息系统记录的实时数据显示,志愿者注册队伍在不断增加,志愿服务发展的环境也越来越好,但是我国公益参与的总人数和参与比例依然不高,英国慈善救助基金会最新发布的2021年世界捐助指数报告显示,中国参与公益的总
学位
当前企业社会责任的社会关注度显著提高,履行企业社会责任这一理念已在全球范围内达成共识,在这一背景下,越来越多的小微企业意识到履行社会责任的重要性,积极投身于社会责任的实践。“时间银行”社会工作服务项目是在新冠疫情背景下开展,致力于推动社区志愿者队伍建设的专业化、规模化发展,辖区单位、居民、社会组织、爱心企业和商户参与志愿服务,促进社区志愿服务健康、有序、长效地发展。小微企业和商户作为重要主体之一,
学位
志愿服务在基层治理中的作用愈发突出。近年来,企业志愿服务组织也逐渐受到了关注。以往研究中大多学者对企业志愿者进行了研究,虽然志愿服务组织有一定的发展,但是存在志愿服务缺乏组织制度规范、志愿者培训不足、志愿者激励不充分、服务开展缺乏专业性和持续性等问题。究其原因,主要在于企业志愿服务组织的内生动力不足,致使志愿服务质量难以提升。而在企业志愿服务组织培育过程中,社会工作有着有着丰富的专业知识和实务经验
学位
在我国经济高速发展和社会意识逐渐转变的背景下,女职工队伍越来越壮大。女职工是企业重要且不可缺失的一部分,在日常的工作生活中会面对许多问题、承受许多压力,这些问题可能来自于职场性别歧视、家庭关系、人际交往状况等,她们遇到的这一系列问题会给她们带来许多不良情绪和更大的压力,从而引发生理、心理等方面的诸多问题,长此以往,给女性职工的个人发展和企业的发展都会带来不利影响。对于女性职工个人而言,长时间受不良
学位
第一部分重度子痫前期患者不同脏器损伤与不良妊娠结局的相关性研究目的:分析重度子痫前期(Severe preeclampsia,SPE)患者不同脏器损伤与不良妊娠结局的相关性。方法:回顾性分析2015年1月至2018年12月来自全国4家医院的817例SPE患者的完整临床资料,其中发生单脏器损伤者为A组(553例),发生复合脏器损伤者为B组(264例),比较两组各种母胎不良结局发生率。采用多因素Log
学位
残疾人就业是指在法定工作年龄内有就业需要,从事有偿活动的残疾人。全国贫困人口中,残疾人约281万人,占10%,贫困残疾人占据了总贫困人口不小的比例,而且呈逐年上升的趋势,因此残疾人就业问题引起了社会的广泛关注。目前对残疾人就业问题的研究主要集中在阐述现状和制定政策上,对残疾人自身缺乏关注。本文将关注残疾人自身,在增能理论的指导下,通过个人、家庭、企业、社会等层面的干预,提高残疾人的就业竞争力,促进
学位
居民消费是促进国民经济发展的三驾马车之首,而消费结构又是影响国民经济结构调整和经济发展水平向高质量转化的关键所在。习近平总书记在二零二零年的中共中央政治局全会中提出,要重视并积极推进国内的经济循环,而其中一项关键着力点就是形成系统完备的内需体系,使城乡居民消费变成推动国民经济发展的主力量。这就表示要着力打通国内生产、分发、流动、居民消费各环节,进一步适应消费升级需求。因此,如何进一步促进居民消费及
学位
近年来随着我国计算机技术的高速发展以及互联网行业的崛起,对传统银行业带来了较大冲击,促使银行业进行数字化转型,而金融科技是其内部转型的重要动力之一,也成为决定各家银行在金融市场中竞争力水平的重要因素。目前各家银行纷纷开始角逐金融科技赛道,希望能够减少用户向互联网企业的流失,加快自身内部IT架构转型,拓宽业务渠道,推出新型数字化金融产品。因此如何确立正确的金融科技发展方向达到提高服务质量和运营效率的
学位