论文部分内容阅读
信息抽取(Information Extraction)技术可以从非结构化数据中抽取人们感兴趣的实体、关系、事件等,形成结构化存储以供查询检索。命名实体识别和实体间关系抽取是信息抽取中两个非常重要的子任务,也是研究的热点问题。随着文本数据的爆炸式增长,如何使用丰富的未标注语料来提高信息抽取的性能成为一个迫切的问题,在这方面,以有监督为代表的传统方法表现不佳,采用弱监督和无监督方法进行处理成为当前的趋势。本文在深入研究总结前人研究成果的基础上,对弱监督的命名实体识别和关系抽取进行了改进,并取得了良好的效果。在命名实体识别方面,本文提出了SACRF(Self-training with Active learning based on CRF)方法,依据少量的初始训练语料和大量未标注数据,采用条件随机场作为基础分类器,使用自学习方法自动扩展未标注语料,并使用主动学习标注置信度低的样本。实验表明,该方法在自动扩展训练集、提高实体识别的准确率和召回率的同时,能够显著降低人工标注的工作量。在关系抽取方面,基于传统弱监督方法存在的噪声引入以及准确率不高问题,本文改进了Tri-Training算法的投票策略,并引入主动学习思想来进一步提高准确率。在关系抽取实验中,改进方法的识别准确率与传统Tri-Training算法相比具有很大的提升。最后,本文基于所提出方法,实现了一个基于文本数据的信息抽取与关联分析可视化原型系统。该系统可以将文本数据进行实体、关系抽取并布局展示,同时具备初步的关联分析和人机交互功能,以辅助用户分析决策。