【摘 要】
:
事件抽取是指从自然语言文本中抽取其中包含的结构化事件信息的任务。事件抽取任务按照抽取目标是否限定为特定领域的事件,可以分为限定域事件抽取和开放域事件抽取。限定域事件抽取需要先指定抽取的领域,人工预定义该领域的事件模式,并基于此进行该领域事件抽取。开放域事件抽取是指在不限定事件类型及模式的情况下,从文本中检测不限定类型及模式的事件并对事件论元信息进行抽取。限定域事件抽取任务的方法往往存在领域间迁移困
论文部分内容阅读
事件抽取是指从自然语言文本中抽取其中包含的结构化事件信息的任务。事件抽取任务按照抽取目标是否限定为特定领域的事件,可以分为限定域事件抽取和开放域事件抽取。限定域事件抽取需要先指定抽取的领域,人工预定义该领域的事件模式,并基于此进行该领域事件抽取。开放域事件抽取是指在不限定事件类型及模式的情况下,从文本中检测不限定类型及模式的事件并对事件论元信息进行抽取。限定域事件抽取任务的方法往往存在领域间迁移困难问题,相比而言,开放域事件抽取任务的设定更有助于抽取广泛不限定类型的事件信息,是一个很有价值的研究问题。现有的开放域事件抽取相关方法存在很多不足,现有监督学习抽取方法基于覆盖事件类型有限的人工预定义事件模式且严重依赖人工标注数据,现有基于概率图模型的无监督抽取方法用于事件论元角色表示和论元抽取的效果大多较差,均难以应用于面向日常生活中大规模新闻文本语料的开放域事件抽取。因此,本课题主要研究基于模式自动归纳的开放域事件抽取关键技术,从无标注新闻文本语料中自动归纳出其中蕴含的事件模式,并基于归纳出的事件模式在新闻文本语料上进行开放域事件抽取,分为开放域事件类型归纳、事件论元角色归纳和基于模式自动归纳的开放域事件抽取三个部分进行研究,分别提出了一种融合主题模型和预训练模型的事件类型归纳方法、一种基于图表示学习的事件论元角色归纳方法和一种基于模式自动归纳的开放域事件抽取方法,并采用提出的上述方法在基于英文新闻文本构建的数据集上进行了开放域事件抽取实验。实验结果表明,本文提出的事件类型归纳方法相比基线方法在触发词集合连贯性、类型多样性方面均有较大的效果提升,本文提出的论元角色归纳方法可以归纳出代表性和唯一性较好的论元角色,本文提出的基于模式自动归纳的开放域事件抽取方法相比基线方法抽取效果也有较显著的提升。本文提出的基于模式自动归纳的开放域事件抽取方法可以避免传统事件抽取方法对于人工标注数据的依赖,且相比人工构建的事件模式,由大量文本数据自动归纳得出事件模式更加客观的反映了现实世界中的事件,具有良好的可解释性和实用性,有重要的理论意义和广阔的应用前景。
其他文献
随着人工智能技术的发展,许多领域都出现了人工智能与传统行业的深度融合,诞生出了各种改变人们日常生活的应用。医疗作为与民生密切相关的领域,人工智能与医疗进行深度融合必然能够极大地提升人民的生活水平,因此将人工智能深度赋能医疗吸引了许多研究人员、政府人员和企业人员的关注。互联网上丰富的医疗信息和不断发展的自然语言技术,使得对医疗信息的挖掘和应用成为可能。本文针对融合知识的预训练模型在阅读理解中的应用这
计算机断层扫描(Computer Tomograpghy,CT)作为临床上常用的成像手法,具有扫描快,图像清晰的优点,但是标准剂量的CT扫描中所携带的电离辐射对人体的影响不可忽视,这也导致目前低剂量的CT扫描越来越流行。低剂量CT电离辐射会小于标准剂量CT,但是其中所包含的噪声会较大的影响医生的判断。因此本课题所研究的内容就是使用深度学习技术来降低低剂量CT中所包含的噪声。本文主要的研究工作有以下
新医改之前,医疗机构的收入来源有3种,其中药品加成收入是医疗机构的主要收入来源,然而伴随着取消药品加成政策的实施,医疗机构的收入锐减,同时医疗服务价格结构比例失衡现象愈发凸显,其中劳务成本占比低、大型设备检查费用占比高现象显著。在双重问题之下,2016年国家有关部门发布了一系列文件,拉开了此次医疗服务价格改革的序幕,本次医疗服务价格改革以2020年为时间节点,要求在理顺医疗服务比价关系的基础上,逐
甲状腺是通过分泌甲状腺激素来影响人体新陈代谢等功能的一个内分泌器官,甲状腺结节被认为是甲状腺异常的一种主要临床表征。恶性结节会使得甲状腺激素分泌异常进而对人身体健康产生消极影响,随着超声诊断技术的发展,越来越多的结节会被检出,但超声图像本身具有受噪声影响大、成像质量差等特点,再加上结节区域与正常组织区域又具有对比度低、边界模糊、形状大小变化不一等特点,这都加大了阅片医生的诊断难度,而一旦误诊或漏诊
光学字符识别(Optical Character Recognition,OCR)作为促进办公自动化的一项重要技术应用场景十分广泛,随着近年来支持OCR有监督学习的训练数据爆炸性增长,针对文本检测和识别的OCR技术研究逐渐成为深度学习领域一个前景十分广阔的热门研究方向。本文研究基于深度学习的OCR技术,研究重点是如何在保证OCR过程中文本检测和识别准确性的同时,尽可能地提升模型的推理速度,高效快速
时间依赖图在传统静态图上引入了时间维度,是一种图数据随时间变化的模型。时间依赖图模型能够以更加贴合实际的表达方式来刻画现实中存在的问题,因此有越来越多的研究工作在相关方面展开。本文从时间依赖图模型入手,着手于时间依赖图系统框架的设计与时间依赖图上算法的研究。基于Neo4j图数据库,本文设计并实现了一个能够持久化存储时间依赖图的系统框架TD-Frame。该框架使用Neo4j图数据库作为时间依赖图的存
航空发动机被誉为“工业皇冠上的明珠”,更被认为是飞机的心脏。叶片则是航空发动机核心部件,各级叶片为发动机提供80%以上的推力。叶片在复杂的力学环境下工作会导致叶形发生改变,而叶片叶形的变化会使通过发动机内部的气流相对于设计工况发生改变,从而影响到发动机的稳定性、噪音水平和推力性能等。掌握叶片在工作条件下的变形规律,不管是对于现有航空发动机的安全运行还是对于新型叶片的优化设计都有很大的意义。本课题针
跨媒体内容质量评估的目的是用计算机的方法去衡量人对于跨媒体内容的主观感知。目前的方法对于跨媒体质量的分析分为主观评估和客观评估。客观评估多是以分辨率和帧率评定视频质量,以强度和音调衡量声音,以行文规范判断文本质量。然而新的需求是从跨媒体的深层内容出发,思考其蕴含的价值观和内涵,并能参考大众的反响程度。建立一个跨媒体内容质量评估系统,有助于增强对跨媒体内容深层理解和分析的探索。本文提出了一个跨媒体内
传统的医学图像分割主要靠人工完成,这种方法不仅耗时且不可复现。自动化分割技术虽然可以提高处理效率但是大大降低了处理结果的准确性,特别是在组织边缘和细小分支结构区域。基于深度学习的交互式分割方法可以平衡二者的优缺点,兼顾分割的准确性和高效性,在心脏CTA(Computer Tomography angiography)数据组织分割问题中具有十分重要的意义。虚拟内窥技术可以解决传统医学内窥镜无法无创入
数据科学时代,常常需要利用数据集训练学习算法来完成相关任务。其中,训练使用的数据集往往需要我们前瞻性的进行收集,如果想要模型对不太常见的数据也具有良好的效果,数据集必须包含足够的与这些数据相似的例子。训练数据集对待预测数据的覆盖不足往往会导致预测的不准确,为了提前预见到这些不准确性,本文提出了一种评估多维类别型属性数据集对待预测数据的覆盖程度的方法。本文面向评估数据集对待预测数据覆盖程度这一课题,