论文部分内容阅读
信息抽取是自然语言处理中的一个重要分支,主要包括命名实体识别和语义关系获取等任务,是自然语言处理相关工作的基础。实现信息抽取的传统方式主要分为两种,分别是基于规则的方法和基于统计的方法。其中基于规则的方法一般需要丰富的语言学知识,具有一定的局限性,而基于统计的方法虽然可以拜托对语言学知识的依赖,但是需要大量的人工标注工作,实现难度较高。近年来,深度学习的方法被广泛应用在自然语言处理的各个领域中,深度学习不需要很强的语言学知识和大量的人工标注特征就可以自学习样本特征,在信息抽取领域取得的结果已经超过了很多传统方法。本文经过对基于深度学习的信息抽取研究进行了深入的学习和研究后发现,目前的信息抽取方法还存在以下两点不足:(1)在命名实体识别过程中,一般只考虑每个字或词的上下文信息,对句法信息的关注程度不高,通过研究句法信息来提升命名实体识别模型的性能的研究比较少。(2)在语义关系获取的相关研究中,一般侧重对句子整体的研究,很少关注到句子的局部特征,导致关系获取的效果不理想。针对以上两点不足,本文设计了基于句法分析和深度学习的命名实体识别模型和基于多层注意力机制和双向LSTM网络的语义关系获取模型,主要工作如下:(1)设计了网络爬虫,对百度百科,互动百科等中文类百科进行信息爬取获取语料,构建百科类语料库;(2)在命名实体识别模型中引入线性编码成分句法树,为双向GRU的输入层增加句法分析,将句法分析结果与词向量进行结合,提高命名实体识别的准确性,实验取得了98.39%的准确率和94.29%的召回率通过对比实验,验证了本文方法的有效性。(3)使用具有实体位置特征与多层注意力机制的双向LSTM网络结构来构建关系抽取模型:采用位置嵌入、字嵌入相结合的字向量表示方法,增加语义相关度,采用LSTM模型避免传统深度学习方法的长距离依赖问题,同时采用多层注意力机制,充分利用句子的局部特征以及全局特征。通过对比实验,证明本文引入多层注意力机制的有效性,实验取得识别的准确率为83.90%,召回率为86.44%。