论文部分内容阅读
Web2.0时代信息技术飞速发展,因特网的出现促进了数据量呈爆炸式增长。作为信息传播的主要载体,这些数据承载着人们关注的大量信息,如何对大规模、非结构化的数据进行快速、高效地处理进而得到结构化的信息成为当今研究的热点,这就是信息抽取的主要任务。实体关系抽取是信息抽取领域的一个重要分支,不仅在理论研究方面具有促进意义,在实际工程应用领域同样具有广阔的应用价值。当前实体关系抽取主要还停留在基于监督学习/半监督学习等方式,存在训练数据获得成本较高、泛化性欠佳等不足之处,而弱监督学习在一定程度上解决了这些问题。本文对基于弱监督学习的实体关系抽取进行研究,主要工作如下:第一,提出了基于弱监督学习并结合词向量和触发词类别分析的关系抽取方法,从多个维度对语料进行特征抽取,之后采用富向量思想复合这些特征,最后根据知识库中每种关系对应的最具代表性触发词列表对预测的实体对关系结果进行修正。实验结果表明,词向量和触发词类别分析的引入使得抽取系统整体性能得到了提升,并且低频实体对对系统抽取性能影响较小,在150个实体对数量级上准确率提高了 20.3%,在500个实体对数量级上准确率提高了 18.7%。第二,通过分析弱监督学习过于苛刻的基本假设,提出了一种结合过滤机制的子序列映射分层主题模型,在训练阶段通过多层主题模型以及子序列映射,解决了由于某些词序列出现次数较少产生的稀疏性,有效地缓解了长尾效应。此外,通过引入常见错误标记集合,对生成模型的关系预测结果进行过滤,减少错误标记样本的数目。实验结果表明,通过该模型可以有效地降低训练数据被错误标记的次数,与结合词向量与触发词分析的抽取方式相比,准确率提升了 9.72%,并且平均准确率抖动较小,在大量实体对抽取任务情形下依旧保持了较好的稳定性。论文的主要贡献和创新有:本论文提出的结合词向量和触发词类别分析的关系抽取算法,在高频实体对预测的准确性上有显著提高,同时也提高了系统整体的准确率,具有实用性;结合过滤机制的子序列映射分层主题模型可以有效地降低抽取系统错误标记的次数,减少噪声数据,提高抽取系统性能。