基于深度学习的信息抽取设计与实现

来源 :成都理工大学 | 被引量 : 0次 | 上传用户:yanguangkai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息是指由音频,新闻和通信等系统传输和处理的对象,指的是人类社会传播的一切。正如数学家香农所说:“信息是用来消除随机不定性的东西”。信息的重要性不言而喻。新世纪,随着互联网技术的高速发展,信息以电子文本为载体呈指数级增长,使得用户极难从中获取重要信息。面对大数据时代的到来,怎样智能化地从海量信息中获取人们真正关心的信息成为科技工作者们研究的重要课题。信息抽取技术应运而生。信息抽取指从自然语言文本中抽取特定类型的事件,实体和实体关系并形成用于结构化数据输出的文本处理技术。根据ACE(Automatic Content Extranction)自动内容评测会议评测划分,信息抽取主要研究实体识别、实体关系提取、指代消歧、事件抽取这四大领域。命名实体识别和实体关系提取是这些技术领域中最为重要的部分。随着互联网的迅猛发展与广泛应用,信息抽取的一个典型任务就是从半结构化甚至无结构化的海量数据中抽取人们感兴趣的内容,并保存为结构化数据形式。学术检验,商品搜索,文本提取,知识库建设等都需要信息抽取的支撑。命名实体识别及实体关系抽取就是反应信息抽取的两个重要子任务。命名实体识别指识别文本中有特定含义的实体,诸如人名,地名,机构名,专有名词等。关系抽取指智能化识别由一对实体及联系这对实体的关系构成的相关三元组关系。广泛的讲,实体关系抽取涵盖了命名实体识别任务。命名实体识别与关系抽取的联合框架用于检测实体及其类别,并从文本中识别它们间的语义关系。这是知识提取的一个重要问题,对知识库的自动化建设起着至关重要的作用。由于现今对信息提取的需求急剧增长,作为其中的两项重要任务,命名实体识别与关系提取具有极为重要的意义,国内外学者针对这两大问题也展开了较为深入的研究。命名实体识别的研究方法主要分为两大类,一是传统的线性统计模型,二是神经网络架构模型。而实体关系抽取的研究主要分为五大类,一是基于人工构建正则化匹配模式的系统,二是半监督方法,三是无监督方法,四是远程监督方法,五是监督方法,又称为关系分类方法。目前最常见的构建方法为监督学习方法。从现有的研究来看,传统方法都需要大量的人工抽取特征且移植性较差。大部分实体识别同实体关系抽取任务都是基于现有的开放式评测语料,但是现有的数据语料可能并不一定能够满足研究学者的需求,而且大部分已标注的训练语料为英文文本。对能够同时识别中英文实体及关系的模型及相应标注训练数据的需求极为迫切。不仅如此,传统的实体识别与关系抽取系统是将两个独立的子任务串联结合起来,这样的分离框架使得任务便于处理,但这样的串联模式很难体现出两个子任务间的关联性,导致实体识别的性能可能会影响关系分类的性能,容易产生误差累积。而急速发展的深度学习神经网络算法为大批量数据处理提供了理论支撑与技术支持。深度学习神经网络在不同类别的任务上体现出的优势不一,卷积神经网络最开始用于提取图像的特征,近年来在自然语言处理方面也表现出了良好的信息特征抽取性能;循环神经网络通过训练出适当的门控权重来保持长期记忆,从而获得了较为广泛的应用;条件随机场是用来标注或者划分序列结构数据的概率化结构模型,对于有语序问题的文本数据分析能够起到重要作用;还有其他很多性能优异的深度学习神经网络算法,它们在自然语言处理领域获得了较为广泛的研究与使用。鉴于以上情况,本论文的研究内容是使用深度学习来设计和实现实体识别与实体关系提取的模型。涉及的主要工作包括:1、详细分析各种命名实体识别方法和理论基础,并对每个模型做了基本的模拟实验,研究它们的特征,提出一种命名实体识别的多模型融合方法。2、分析了多个实体关系抽取方法,指出它们的优点和缺点,且设计出双向GRU的中文实体关系模型。该模型加入了注意力机制并结合词向量和位置向量特征来进行中文的实体关系抽取,通过实验验证了该模型的可行性。3、通过对各种实体识别和实体关系提取模型的分析和研究,设计了一种实体识别和实体关系的联合抽取模型。这种基于端到端的编码解码模型采用了新的标记策略,首先在数据预处理阶段将句子中的词转为词向量和字符向量并将其串联拼接,再通过循环神经网络编码,然后在解码层通过条件随机场进行实体序列标注并通过卷积神经网络抽取实体关系。这种联合抽取模型性能优于传统的管道式抽取模型,新的标记策略也优于大多数其它联合抽取模型。通过对比实验,该模型的F1值相较于其它模型高出3%左右。4、针对实验数据不平衡问题,设计了基于欠采样的数据预处理算法(DPA算法),通过实验,DPA算法对于模型的准确率提高了2%上下。
其他文献
在源远流长的世界美术历史长河中,中华民族的文化好似一颗发光的明珠。在世界发展如此迅猛而变化多端的当今社会,我国的民俗文化,在当今的产品包装设计中,应当展现其独特的历史底蕴和唯美的视觉体验,呈现给世界。特别是民族糕点,一直处于“酒香也怕巷子深”的情况。因此,作者继承传统的古典文化,将自然元素结合古风艺术,融入现代设计感,将传统名点——淮扬米糕的包装进行整体改良设计。本文通过五个章节,对民族糕点包装视
明代是大力推行乡约的时期 ,江浙赣地区在推行乡约的过程中与宗族结合 ,发生了宗族乡约化。宗族内部因引进乡约而宣讲圣谕、设立族约、制定族规 ,推动宗族建设并组织化。宗族
隐喻既是思维的本质属性同时又是重要的认知工具。培养隐喻思维能力对外语教学意义重大。在分析了隐喻意识、隐喻思维、隐喻能力三者关系的基础上,本文尝试性地给出了隐喻思
针对摩擦焊设备的机构繁琐、庞大的缺点,文中选用合适的变频电机为动力源,代替了复杂的传动装置和制动离合装置,通过联轴器直接将动力传递到机床主轴上,同时选用合适的液压缸
从“天堂硅谷”“创新型城市”,到“一号工程”,杭州市抓住每一轮科技风潮带来的产业变革机遇,一以贯之大力发展信息经济、数字经济,新产业蓬勃发展,新科技风起云涌,新制造迭
期刊
目的了解该院工勤人员对自身职业危险的认知和防护状况及其影响因素。方法采用自行设计的问卷对该院476名工勤人员(包括保洁员、护工、外勤工)进行调查,内容包括个人一般资料
本试验用五指山小型猪进行同期发情和超数排卵技术的试验研究.将 2 5头小型猪母猪随机分为三组,每一组各采用一种超排处理方法,即Ⅰ组为PMSG +HCG法,Ⅱ组为PG/PMSG +HCG法,Ⅲ
橡胶混炼是橡胶生产工艺中最具研究意义的一种,对橡胶产业的发展具有重要的影响。本文在简要概述橡胶混炼的基础上,分析了对其影响的重要因素,并且有针对性的提出了控制措施,
针对在CATIA三维设计软件中,二维图中BOM表的提取过程繁琐和易错,分析了CATIA装配体文件中零件信息的数据结构,通过VB开发编写应用程序,对零件的相关信息进行提取,自动生成符
随着综合实力的增强,东南精英逐渐形成一个经济、政治集团。他们成立预备立宪公会与咨议局、领导三次国会请愿运动、参与沪鄂之争、调和南北、扶持袁世凯上台,以至圈定北京民