【摘 要】
:
事件抽取旨在将文本中的事件信息抽取为结构化的数据形式,对于信息检索、事理图谱的构造有重要作用。现有的事件抽取方法大致可以分为管道方法和联合方法。管道方法存在错误累积的问题,近期的大部分工作都采用联合方法进行事件抽取。然而大多数句子级的事件抽取联合方法缺少文本的整体信息以致无法很好地处理触发词的二义性问题,而文档级的抽取方法存在建模复杂的问题;另外,由于事件触发词和事件元素在句子中的关系紧密,事件抽
论文部分内容阅读
事件抽取旨在将文本中的事件信息抽取为结构化的数据形式,对于信息检索、事理图谱的构造有重要作用。现有的事件抽取方法大致可以分为管道方法和联合方法。管道方法存在错误累积的问题,近期的大部分工作都采用联合方法进行事件抽取。然而大多数句子级的事件抽取联合方法缺少文本的整体信息以致无法很好地处理触发词的二义性问题,而文档级的抽取方法存在建模复杂的问题;另外,由于事件触发词和事件元素在句子中的关系紧密,事件抽取任务十分依赖句法特征,然而只有少数方法在事件抽取中引入句法信息,但是这些依赖预训练工具的句法分析仍会对事件抽取造成错误累积;并且在相关数据集和现实应用中,句子中包含多个事件或者事件元素重叠的情况十分常见,但多数方法只考虑单事件和单元素角色,丢失了大量的事件信息。为了解决上述问题,本文提出一个基于主题特征和隐式句子结构的事件抽取联合方法。该方法首先通过结合BERT和LDA为句子级的事件抽取模型引入文档级的主题信息解决了触发词的二义性问题;其次抽取出BERT词嵌入表示中隐含的句法信息,并将该抽取过程与事件抽取进行联合建模,不仅为事件抽取引入重要的句法信息,同时也避免了错误累积问题;最后模型能够抽取单句中的多个触发词以及抽取实体在多个事件中的元素角色,解决多事件和事件元素重叠的问题。受益于引入主题特征和隐式句法特征以及联合建模的优势,本文的工作能够在事件抽取任务上获取一定的提升。本文主要贡献在于:1.研究一种基于主题特征的事件抽取联合模型:通过将结合了具有句子上下文语义的BERT向量表示和具有主题分布信息的LDA主题表示得到的主题特征引入模型以解决触发词二义性问题,并对事件触发词和事件元素进行联合建模以解决子任务之间的错误累积问题,模型的设计面向多事件和事件元素重叠问题,能够有效提高模型性能。2.研究一种基于隐式句子结构的事件抽取联合模型:对基于主题特征的模型未引入重要句法信息的问题进行优化,通过抽取BERT词嵌入结果中隐含的句法信息,并将该抽取过程与事件抽取两个子任务联合训练,可以在引入重要句法信息的同时解决上游任务的错误累积问题,模型的设计面向多事件和事件元素重叠问题,能够有效提高模型召回率。3.设计并实现基于事件抽取公开数据集的实验。利用常用的评估任务和评估指标对实验结果进行评估,并与已有的方法在同样的评估指标下对结果进行比较和分析,结果显示本方法在各评估指标上均取得一定提升,验证了方法的有效性。
其他文献
遥感技术目前已广泛应用于多种军事和民用领域,准确地检测出图像中的物体对于分析和利用这些图像非常重要,并在安防、交通和救援等方面有重要的应用价值。随着卫星遥感以及航空摄影技术的快速发展,遥感图像的分辨率越来越高,人们可以获取更多的地物信息。然而,随着遥感图像分辨率的提高,图像处理难度也有所增大。随着计算力的快速发展以及许多优良网络结构的出现,深度学习在计算机视觉领域取得了显著成果。深度学习的出现给遥
乡村治理,人才是关键。随着国家治理体系的完善和推进乡村振兴发展的需要,使得乡村人才队伍的建设显得尤为重要,乡村治理和发展正需要能人所具备的能力资源,各地政府相继出台各种政策吸引人才回乡,建设乡村,推动乡村发展。在大力推动人才回乡的政策背景下,许多能人进入乡域,融入当地,参与乡村治理;但同时,一部分能人返乡之后,由于各种原因,无法获得村民的认可,无法顺利进入当地的治理体系,进而阻碍其参与乡村治理。而
机器学习作为当前数据计算科学领域的焦点,强化模型预测性能是学界长期关注的热点方向,在此背景下研究者们提出了集成学习方法,该方法的基本思想是通过集成多个模型的推断结果,改善单个模型学习能力较弱的困境。但目前传统的集成学习仍存在两点缺陷:一是模型训练运行效率低下,即为了获得更优秀的模型性能导致单一模型训练运行时间以及集合推断结果的时间不断增长,传统的单机串行方式无法满足其应用需求;二是模型超参数依赖人
呼吸检测技术分为接触式和非接触式,对于一些特殊的人群来说,接触式检测操作不方便,而非接触式呼吸检测,尤其是红外热像仪呼吸检测,由于它是非接触的且操作简单,在临床上对某些不方便行动的病人进行呼吸检测是一种非常有价值的检测手段,因而目前对于它的研究最多,但是利用分辨率较低的红外热像仪进行检测,尚未有成熟的实现方案。本文利用红外热像仪采集热图像,利用鼻孔中气流变化的特点作为研究对象来测量鼻子的呼吸,主要
语音作为人类交流常用的手段之一,蕴含丰富的情感信息,如何让机器通过语音判别人所处的情感状态是人机交互的挑战之一。语音情感识别主要是利用计算机自动识别语音信号中蕴含的情感,是情感计算、模式识别等领域的热门课题之一。然而,语音信号易受环境噪声、说话人身份、语种等因素的影响,使得其情感信息的表征非常困难,极大地制约了语音情感识别模型的泛化性。而跨数据库语音情感识别作为一种特殊的语音情感识别任务,针对训练
在2020年初期,以武汉为中心爆发了新型冠状病毒疫情,由于其高度的传染性和危害性,造成了严重的公共卫生危机。在推进疫情防控过程中,一般情况下,城镇防疫资源、医疗资源、防控资源优于农村,相比之下,农村地区村民居住较为分散,不便于集中管理,这对农村地区开展防疫工作带来了一大挑战。因此,发动快、推进稳、落实好农村地区的疫情防控对于推进我国的乡村治理体系现代化有着极为重要的意义。本文需要探讨的问题是:在疫
猪流行性腹泻病毒(Porcine epidemic diarrhea virus,PEDV)、猪传染性胃肠炎病毒(Transmissible gastroenteritis of swine virus,TGEV)及猪轮状病毒(Porcine rotavirus,Po RV)是引起仔猪腹泻的主要病毒。以PEDV的M基因,TGEV的N基因,Po RV的VP7基因为靶基因,设计特异性引物及不同荧光基团
冰川被称为气候变化的指示器,在全球气候变暖的大背景下,山地冰川发生着巨大的变化。冰川表面温度强烈影响冰川消融,对冰川表面的热物理过程非常敏感。冰川表面温度被广泛用于冰川物质平衡模型、冰川动力学模型和表碛覆盖模拟,表征着气候条件和冰川表面属性的长期动态变化。时至今日,大量基于特定传感器的反演算法可用于表面温度研究,主要包括单通道算法、劈窗算法和多通道算法三大类。目前,针对普通地表温度、海洋表面温度和