【摘 要】
:
随着信息技术的飞快发展,网络逐步成为一个巨大的数据源,其中包含了众多有价值的信息。这些信息很多是关于已经或正在发生的各类事件的,例如普遍存在于各大网站上的国家政府
论文部分内容阅读
随着信息技术的飞快发展,网络逐步成为一个巨大的数据源,其中包含了众多有价值的信息。这些信息很多是关于已经或正在发生的各类事件的,例如普遍存在于各大网站上的国家政府要人的活动,公司的新闻动态等等。事件抽取作为从各式文本中自动获取所需信息的一种手段,一般包括实体及对其关系的抽取。它主要分为两个步骤:(1)事件类型识别,确定事件的类别以及子类别;(2)事件元素识别,标注出当前类别的事件所包含的实体参与者及其角色。本文致力于事件类型识别技术研究,目标是在保障识别结果准确率的前提下,能够面向更大规模、更高复杂度的数据,能够充分挖掘文本中有价值信息,最终丰富事件抽取的内容。而当前事件类型识别系统所识别的范围并不符合事件抽取的实际需求,视角要么基于语句层级,要么基于篇章层级,存在过大或过小的问题;另一方面,由于多数抽取系统都聚焦于事件元素和事件触发词,对事件相关性识别基于文本全部词语的判定;待识别语句的高冗余度性也给机器带来了严重负担,其引入的众多反例也使得正反例极度失衡。本文针对现有事件类型识别范围不够精准,待识别语句冗余度高,类型识别可靠性差等问题展开研究,主要工作和贡献概括如下:1.提出一种基于分割技术的文本块划分方法,能够把待抽取的文本范围规范至语句和篇章之间的文本块大小,使得每个文本块中包含若干同话题的事件,为下一步的语句过滤做好基础。2.提出一种语句过滤方法,基于划分好的文本块对非事件、虚假事件语句进行过滤,同时甄别语句包含的事件事实信息的真假性。此方法能够有效解决传统事件类型识别中正反例失衡的问题,实现较高的分准率,增强了事件类型识别的适应能力。
其他文献
随着经济的快速发展,我国汽车数量急剧上升,给城市道路交通管理带来了巨大的压力,而传统的人工管理方式费时费力效率较低而且出现误判的概率较大,使得智能交通(ITS)得到迅速发展
Mashup服务是一种崭新的Web应用,以其易于开发、易于组合、高质量、个性化等优点成为了服务组合的发展方向,是实现SOA(Service-Oriented Architecture)和SOC(Service-Oriente
蛋白质交互(Protein-Protein Interaction,PPI)网络是生物体内蛋白质之间相互作用形成的网络,在拓扑结构上呈现小世界特性和无尺度特性,属于复杂网络的一种。近年来,随着高通
在进行动态物体融合时常常面临跟踪问题,传统增强现实中的摄像机定标、三维重建等技术在解决这一问题时往往计算成本过高,且计算所需的真世界信息也很难满足。视觉领域的目标
大家的学习和工作因为互联网的飞快发展给带来了极大的方便,同时也带来诸如盗版、信息篡改等一系列潜在的信息安全问题。为了解决该问题,传统的方法采用加密和数字签名等技术
移动健康监测作为新生事物,能够在医疗资源相对有限的社会环境里及时而有效地向用户提供价格低廉的医疗保健服务。生命信息处理已经成为一个崭新的尖端综合性研究领域。开发和
随着3G时代的到来,3G无线通信网络及相关技术的日臻成熟,一方面各类面向富客户端的应用异军突起,炫酷新颖的移动增值服务不断推出,极大提升了用户的体验。另一方面,这些应用服务对
信息数据在现代生产和生活中越来越重要。数据仓库被大型企业及政府广泛用于存储和处理大规模数据。OLAP联机分析处理成为数据仓库处理数据的一种有力工具。OLAP技术能够对数
近年来,随着基因测序技术的发展,人们能够获得越来越多生物体的基因组,然而这些基因组并不完整。不完整的基因组被称为基因组框架。在很多计算生物学研究领域,无法直接使用基
虚拟计算系统是基于虚拟化技术构建起来的新一代计算系统,是对传统计算理论和模式的一次重要创新。它通过引入虚拟机管理器层,消除了底层硬件体系结构和上层系统软件之间的紧密