基于百科类语料的语义关系获取研究

来源 :江苏科技大学 | 被引量 : 0次 | 上传用户:KurtJohns
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息抽取是自然语言处理中的一个重要分支,主要包括命名实体识别和语义关系获取等任务,是自然语言处理相关工作的基础。实现信息抽取的传统方式主要分为两种,分别是基于规则的方法和基于统计的方法。其中基于规则的方法一般需要丰富的语言学知识,具有一定的局限性,而基于统计的方法虽然可以拜托对语言学知识的依赖,但是需要大量的人工标注工作,实现难度较高。近年来,深度学习的方法被广泛应用在自然语言处理的各个领域中,深度学习不需要很强的语言学知识和大量的人工标注特征就可以自学习样本特征,在信息抽取领域取得的结果已经超过了很多传统方法。本文经过对基于深度学习的信息抽取研究进行了深入的学习和研究后发现,目前的信息抽取方法还存在以下两点不足:(1)在命名实体识别过程中,一般只考虑每个字或词的上下文信息,对句法信息的关注程度不高,通过研究句法信息来提升命名实体识别模型的性能的研究比较少。(2)在语义关系获取的相关研究中,一般侧重对句子整体的研究,很少关注到句子的局部特征,导致关系获取的效果不理想。针对以上两点不足,本文设计了基于句法分析和深度学习的命名实体识别模型和基于多层注意力机制和双向LSTM网络的语义关系获取模型,主要工作如下:(1)设计了网络爬虫,对百度百科,互动百科等中文类百科进行信息爬取获取语料,构建百科类语料库;(2)在命名实体识别模型中引入线性编码成分句法树,为双向GRU的输入层增加句法分析,将句法分析结果与词向量进行结合,提高命名实体识别的准确性,实验取得了98.39%的准确率和94.29%的召回率通过对比实验,验证了本文方法的有效性。(3)使用具有实体位置特征与多层注意力机制的双向LSTM网络结构来构建关系抽取模型:采用位置嵌入、字嵌入相结合的字向量表示方法,增加语义相关度,采用LSTM模型避免传统深度学习方法的长距离依赖问题,同时采用多层注意力机制,充分利用句子的局部特征以及全局特征。通过对比实验,证明本文引入多层注意力机制的有效性,实验取得识别的准确率为83.90%,召回率为86.44%。
其他文献
目的:探讨中西医结合治疗排卵障碍性不孕症患者疗效及其安全性评价。方法:选自2014年6月至2015年6月期间我院收治的排卵障碍性不孕症患者86例,依据随机数字表法随机分为对照组4
目的探讨功能磁共振(fMRI)、磁共振弥散张量成像(DTI)、神经导航、术中超声(IOUS)、皮层脑电监测(ECoG)等对功能区附近以癫痫为主要症状的低级别胶质瘤手术治疗的指导意义。方法回顾
简要回顾了我国绿色建材相关产品和技术的特点,从中分析发现影响制约我国绿色建材产业发展的主要问题。就主要问题之一绿色建材评价技术的缺失,重点说明了以往相关评价工作探
目的探讨额下入路联合面部鼻侧切开手术治疗儿童颅底沟通肿瘤的临床疗效。方法 2010年10月至2013年1月在郑州大学第五附属医院收治的前中颅窝底各类颅底沟通肿瘤的患儿中选取