基于文本的实体—关系抽取技术研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:h4628241
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息抽取(Information Extraction)技术可以从非结构化数据中抽取人们感兴趣的实体、关系、事件等,形成结构化存储以供查询检索。命名实体识别和实体间关系抽取是信息抽取中两个非常重要的子任务,也是研究的热点问题。随着文本数据的爆炸式增长,如何使用丰富的未标注语料来提高信息抽取的性能成为一个迫切的问题,在这方面,以有监督为代表的传统方法表现不佳,采用弱监督和无监督方法进行处理成为当前的趋势。本文在深入研究总结前人研究成果的基础上,对弱监督的命名实体识别和关系抽取进行了改进,并取得了良好的效果。在命名实体识别方面,本文提出了SACRF(Self-training with Active learning based on CRF)方法,依据少量的初始训练语料和大量未标注数据,采用条件随机场作为基础分类器,使用自学习方法自动扩展未标注语料,并使用主动学习标注置信度低的样本。实验表明,该方法在自动扩展训练集、提高实体识别的准确率和召回率的同时,能够显著降低人工标注的工作量。在关系抽取方面,基于传统弱监督方法存在的噪声引入以及准确率不高问题,本文改进了Tri-Training算法的投票策略,并引入主动学习思想来进一步提高准确率。在关系抽取实验中,改进方法的识别准确率与传统Tri-Training算法相比具有很大的提升。最后,本文基于所提出方法,实现了一个基于文本数据的信息抽取与关联分析可视化原型系统。该系统可以将文本数据进行实体、关系抽取并布局展示,同时具备初步的关联分析和人机交互功能,以辅助用户分析决策。
其他文献
在高速无线移动IP通信系统中,多点接入控制协议是支持多个终端设备共享无线信道通信所不可缺少的.在目前的移动通信中,由于传输速率低,提供的业务少(主要是话音业务),对无线
该设计实现了在Windows98操作系统下PC机与单片机的串行通信及位图文件作为被传输的文件得到的有效传输.该设计中在Windows98操作平台上利用Visual C++6.0编写程序实现从位图
文中首先讨论了目标跟踪中的滤波估计方法,并结合实际应用的需要针对广泛使用的卡尔曼滤波方法提出了对非均匀间隔采样的数据进行卡尔曼滤波的处理方法,对卡尔曼滤波方程做了
WCDMA是第三代移动通信系统空中接口的主流技术之一.它能提供真正全球性的无缝覆盖和漫游,具有支持速率最高达2Mbps的高速多媒体业务的能力,还能提供较高的服务质量和频谱利