论文部分内容阅读
信息是指由音频,新闻和通信等系统传输和处理的对象,指的是人类社会传播的一切。正如数学家香农所说:“信息是用来消除随机不定性的东西”。信息的重要性不言而喻。新世纪,随着互联网技术的高速发展,信息以电子文本为载体呈指数级增长,使得用户极难从中获取重要信息。面对大数据时代的到来,怎样智能化地从海量信息中获取人们真正关心的信息成为科技工作者们研究的重要课题。信息抽取技术应运而生。信息抽取指从自然语言文本中抽取特定类型的事件,实体和实体关系并形成用于结构化数据输出的文本处理技术。根据ACE(Automatic Content Extranction)自动内容评测会议评测划分,信息抽取主要研究实体识别、实体关系提取、指代消歧、事件抽取这四大领域。命名实体识别和实体关系提取是这些技术领域中最为重要的部分。随着互联网的迅猛发展与广泛应用,信息抽取的一个典型任务就是从半结构化甚至无结构化的海量数据中抽取人们感兴趣的内容,并保存为结构化数据形式。学术检验,商品搜索,文本提取,知识库建设等都需要信息抽取的支撑。命名实体识别及实体关系抽取就是反应信息抽取的两个重要子任务。命名实体识别指识别文本中有特定含义的实体,诸如人名,地名,机构名,专有名词等。关系抽取指智能化识别由一对实体及联系这对实体的关系构成的相关三元组关系。广泛的讲,实体关系抽取涵盖了命名实体识别任务。命名实体识别与关系抽取的联合框架用于检测实体及其类别,并从文本中识别它们间的语义关系。这是知识提取的一个重要问题,对知识库的自动化建设起着至关重要的作用。由于现今对信息提取的需求急剧增长,作为其中的两项重要任务,命名实体识别与关系提取具有极为重要的意义,国内外学者针对这两大问题也展开了较为深入的研究。命名实体识别的研究方法主要分为两大类,一是传统的线性统计模型,二是神经网络架构模型。而实体关系抽取的研究主要分为五大类,一是基于人工构建正则化匹配模式的系统,二是半监督方法,三是无监督方法,四是远程监督方法,五是监督方法,又称为关系分类方法。目前最常见的构建方法为监督学习方法。从现有的研究来看,传统方法都需要大量的人工抽取特征且移植性较差。大部分实体识别同实体关系抽取任务都是基于现有的开放式评测语料,但是现有的数据语料可能并不一定能够满足研究学者的需求,而且大部分已标注的训练语料为英文文本。对能够同时识别中英文实体及关系的模型及相应标注训练数据的需求极为迫切。不仅如此,传统的实体识别与关系抽取系统是将两个独立的子任务串联结合起来,这样的分离框架使得任务便于处理,但这样的串联模式很难体现出两个子任务间的关联性,导致实体识别的性能可能会影响关系分类的性能,容易产生误差累积。而急速发展的深度学习神经网络算法为大批量数据处理提供了理论支撑与技术支持。深度学习神经网络在不同类别的任务上体现出的优势不一,卷积神经网络最开始用于提取图像的特征,近年来在自然语言处理方面也表现出了良好的信息特征抽取性能;循环神经网络通过训练出适当的门控权重来保持长期记忆,从而获得了较为广泛的应用;条件随机场是用来标注或者划分序列结构数据的概率化结构模型,对于有语序问题的文本数据分析能够起到重要作用;还有其他很多性能优异的深度学习神经网络算法,它们在自然语言处理领域获得了较为广泛的研究与使用。鉴于以上情况,本论文的研究内容是使用深度学习来设计和实现实体识别与实体关系提取的模型。涉及的主要工作包括:1、详细分析各种命名实体识别方法和理论基础,并对每个模型做了基本的模拟实验,研究它们的特征,提出一种命名实体识别的多模型融合方法。2、分析了多个实体关系抽取方法,指出它们的优点和缺点,且设计出双向GRU的中文实体关系模型。该模型加入了注意力机制并结合词向量和位置向量特征来进行中文的实体关系抽取,通过实验验证了该模型的可行性。3、通过对各种实体识别和实体关系提取模型的分析和研究,设计了一种实体识别和实体关系的联合抽取模型。这种基于端到端的编码解码模型采用了新的标记策略,首先在数据预处理阶段将句子中的词转为词向量和字符向量并将其串联拼接,再通过循环神经网络编码,然后在解码层通过条件随机场进行实体序列标注并通过卷积神经网络抽取实体关系。这种联合抽取模型性能优于传统的管道式抽取模型,新的标记策略也优于大多数其它联合抽取模型。通过对比实验,该模型的F1值相较于其它模型高出3%左右。4、针对实验数据不平衡问题,设计了基于欠采样的数据预处理算法(DPA算法),通过实验,DPA算法对于模型的准确率提高了2%上下。