【摘 要】
:
信息抽取技术能够从无结构的文本数据中抽取出有价值的信息,其结果能够用于知识问答、知识图谱构建等诸多领域。命名实体识别和人物关系抽取作为信息抽取技术的重要组成部分,具有非常重要的研究意义和应用前景。本文改进了一种基于Bi GRU的命名实体识别模型,将其用于关系抽取的数据集构建中,然后在Bi GRU-ATT模型的基础上增加关系词注意力层进行人物关系抽取工作。具体的研究内容如下:(1)改进了基于Bi G
论文部分内容阅读
信息抽取技术能够从无结构的文本数据中抽取出有价值的信息,其结果能够用于知识问答、知识图谱构建等诸多领域。命名实体识别和人物关系抽取作为信息抽取技术的重要组成部分,具有非常重要的研究意义和应用前景。本文改进了一种基于Bi GRU的命名实体识别模型,将其用于关系抽取的数据集构建中,然后在Bi GRU-ATT模型的基础上增加关系词注意力层进行人物关系抽取工作。具体的研究内容如下:(1)改进了基于Bi GRU的命名实体识别模型。针对传统的循环神经网络无法解决文本的长距离上下文信息问题,本文使用ALBert-Bi GRU-CRF模型进行中文命名实体识别,既解决了RNN模型的长距离依赖问题,又可以获取文本的上下文信息。经过实验对比,验证了本文模型识别命名实体的准确率和召回率与目前流行的模型效果相当,但是训练速度在不同的epoch和Batch_size下有较大提升。(2)对人物关系数据集进行抽取和预处理。针对中文人物关系语料库匮乏的问题,本文首先抽取了近20万条百度百科中的人物关系信息,然后总结人物关系的类别并对数据集进行分类整合,最后通过本文改进的命名实体识别算法对人物关系数据集进行多人物实体的数据剔除,最终获得质量较高的人物关系抽取数据集。(3)改进了基于Bi GRU-ATT的人物关系抽取模型。首先根据文本中存在的关系词能够代表人物对之间关系的特点,构建关系词典并计算关系词的权重,使得模型对含有关系词的文本赋较高权重,对不含关系词的文本赋较小权重,着重学习权重较高文本的语义。然后通过Bi GRU层对文本的上下文信息进行特征提取,最后使用注意力机制对文本的特征进行加权增强。本文所用模型在F1值上相较于Bi GRU-ATT模型提升了9%。
其他文献
二维层状非常规超导体是当前凝聚态物理学的研究热点,其中典型的体系包括铜基高温超导体、铁基高温超导体以及最近发现的石墨烯超导体等。这些超导体系的共同特点是物理相图中的磁序、电荷序以及超导态之间存在密切的关联,理解这些复杂的电子物态及其内在关联是当前迫切需要解决的问题。本文基于多带哈伯德模型采用约束路径量子蒙特卡罗方法系统地研究了铜基和铁基高温超导体中电荷序与超导特性之间的关联,以及双层石墨烯体系的磁
设p是一个素数,m是一个正整数,Fpm是一个有限域,f(x)是Fpm上的一个多项式函数.如果方程f(x+a)-f(x)=b对于任意的a,b ∈Fpm(a ≠ 0)在Fpm中的解的个数至多为δ个,称f(x)是差分δ均匀度函数.特别的,当δ=1或2时,f(x)称之为完全非线性(Perfect Nonlinear)函数或几乎完全非线性(Almost Perfect Nonlinear)函数.PN函数和A
流密码因其算法简单、易于实现、加解密速度快的特点在密码系统中得到了广泛的应用.流密码的安全性很大程度上依赖于密钥流序列的随机性,而序列的非线性复杂度是衡量序列随机性的重要指标之一.一般来讲,非线性复杂度较小的序列更易于被预测.自动序列是一类非线性复杂度较大且非周期的无限长序列,其中Thue-Morse序列和Rudin-Shapiro序列是两类著名的自动序列,这两类序列具有极大的非线性复杂度且应用广
流密码具有实现简单、便于软硬件实施、加密和解密的速度快的特点,使得流密码在实际中广泛应用,特别是在政府、军事及外交部门.流密码的安全性很大程度上取决于密钥流的特性.严格来讲,流密码系统中用来作密钥流序列的是伪随机序列.作为密钥流的伪随机序列需要满足平衡性、周期较大、低相关性、随机性等性质.伪随机序列的非线性复杂度是衡量序列随机性的重要指标之一.在欧洲eSTREAM计划中,流密码的设计日趋多样化,基
随着信息时代的快速发展,数据、图像、视频等信息量日益膨胀,迫切需要开发低存取功耗、高存储容量以及多功能特性的存储器。目前主流存储技术主要是闪存,但由于其擦除速度慢、写入速度慢、达到了微缩的极限,人们需要开发新型的存储材料和器件。忆阻器(也称为阻变存储器),由于其擦除写入速度快、功耗低、存储密度高、可用于三维集成技术等特点,有望成为下一代非易失性存储器。而且,由于其传输特性类似于生物突触,基于忆阻器
低照度图像是光学成像设备在夜间或者光照较弱的情况下采集到的图像,这类图像往往会出现曝光不足、对比度较低、细节不清晰等问题。大量细节信息被淹没在黑暗中,严重影响使用者观察、计算机处理等工作。低照度图像增强的目标是提升图像的亮度、抑制噪声和矫正图像的色彩偏差等,使处理的结果图像更加适合人眼的视觉观察或者计算机的识别。目前,二维不可分小波理论迅速发展,在图像融合、图像分割、图像增强等领域都取得很好的应用
对称密码算法广泛应用于实际生活中,常见的对称密码算法包括中国国家密码标准SM4,高级加密标准(Advanced Encryption Standard,AES)等.本文基于混合整数线性规划(Mixed Integer Linear Programming,MILP)和可分性等新技术,以对称密码算法为研究对象,围绕立方攻击、条件立方攻击的理论及应用展开研究.本文以已有的可分性评估输出代数次数的技术为
静止地球轨道双基地合成孔径雷达(Geostationary orbit Bistatic Synthetic Aperture Radar,Geo-BSAR)系统是一种特殊构型的被动式双基地合成孔径雷达系统。该系统的发射机可以部署在一个静止的轨道卫星上,接收器可以是放置在卫星、飞机或者地球的表面,成像目标可以是地面的目标或者是空中的目标,也可以是处于运动状态的目标或一些处于静止状态的目标。GEO-