基于循环神经网络RNN的领域命名实体识别方法研究

来源 :武汉理工大学 | 被引量 : 4次 | 上传用户:sunning1002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的发展,人们越来越倾向于在网上检索信息和获取问题答案。传统的搜索引擎针对用户检索的问题往往返回的是相关文档而非确切的答案,因此基于知识图谱的问答系统逐渐发展起来。命名实体识别(Named Entity Recognition,NER)作为构建知识图谱中基础而重要的一步而被广泛研究。而由于不同领域文本具有不同的特征和风格,使得领域NER的研究难度大大增加。近年来,神经网络在命名实体识别方面展现了巨大的应用前景,循环神经网络(Recurrent Neural Network,RNN)成为解决实体识别任务的一种卓越有效的方法,但其需要大量标签数据,而带标签数据的缺乏一直是一个难以解决的问题。本文在现有NER方法的基础上,主要解决当标签数据极少时领域NER的识别方法,基于循环神经网络RNN提出了一种改进的ERNN模型,同时结合样本迁移方法和协同训练策略,有效提高了领域NER的识别精度。立足于标签数据远远缺乏的情景,本文中主要的工作包括:(1)研究和分析现有概率统计模型和循环神经网络在NER任务上的效果,在ATIS(Airline Travel Information System)和中文文学语料这两个数据集上对模型进行对比实验,并使用不同规模大小的训练数据对模型进行监督学习。实验结果表明对于NER任务,RNN的效果要好于统计概率模型,最高提升达到了39.72%,同时证明了小规模数据集能达到高识别结果的可行性。(2)将RNN模型和统计概率模型应用于协同训练,同时对RNN的激活函数进行改进,并对比了改进前后的识别效果。实验表明新激活函数一定程度上提高了NER识别精度,同时,在训练数据远小于测试数据时通过对未标记数据的迭代也能达到很好的NER识别效果。(3)针对领域NER,对(2)中的神经网络做进一步改进,通过添加额外的汇合层和采用样本迁移,从两方面来实现对相似领域数据的充分利用。此外,本文提出了两种迁移策略。实验中使用不同的相似领域和不同迁移策略对模型进行预训练从而进行对比。相似领域数据采用人民日报和搜狗新闻语料,目标领域数据为高中政治领域数据。结果表明相比改进前,本文提出的ERNN模型有了2.06%的提升(F1分数从0.9212提升到了0.9402)。
其他文献
目的:研究中医护理干预对寒凝血瘀型原发性痛经(PD)患者临床疗效的影响,以期为寒凝血瘀型PD患者提供规范化和个性化的中医护理干预方案。方法:研究病例数据源自湖北省中医院妇产科门诊2018年6—11月就诊且符合原发性痛经(PD)的临床专业诊断标准及寒凝血瘀证型特点的60例患者。借助统计软件SPSS19.0的随机变量函数(Rv.uniform)将患者按照就诊的先后顺序随机分为对照组和观察组,每组各30
地理知识在历史教学中起着一个非常重要的方面。它对教学效果起着举足轻重的作用。它有利于学生形成很好的空间概念,对学生历史兴趣和学习效率的提高有很大的帮助,也是对学生
目的:通过研究含麝香中成药的药品标准,提出对含麝香中成药再评价的建议.方法:对国家药品标准中所收载的含麝香的中成药进行统计,针对其命名、标准、用法用量、剂型和功能主治
孢囊是诸多有毒有害甲藻赤潮暴发的种源,也是底栖贝类毒素积累源之一。近年来,北黄海沿岸海域贝毒呈现明显增加的趋势,为掌握有毒有害甲藻在辽东半岛沿岸海域的种源分布情况,
随着《收容遣送办法》的废止,个人自由权利与社会治安秩序之间的现实冲突比过去更为突显。应转变中央和地方关系的传统思维,在允许地方更多自主权和选择权的同时,更充分地保
<正>我认为当前制约招标投标制度最突出的问题是评标专家制度,这个制度最大的问题就是权责不对等。当年制定《招标投标法》的时候,招标人的权力很大,但是责任不被追究,导致权
文章从信息可视化的角度,对海战场电磁环境的信息特征进行了初步分析,从不同的角度阐述了可用于电磁数据表征的多种信息呈现方式和方法,说明了基于VTK的海战场电磁信息可视化
目的 比较研究黄体酮—平阳霉素乳剂和聚乙烯醇颗粒在子宫肌壁间肌瘤介入治疗中的临床疗效及不良反应。方法 随机将50例子宫肌壁间肌瘤患者分为黄体酮—平阳霉素乳剂组和聚乙
要以‘产销对接行’为契机,培育更多的河南‘网红’农产品,推动形成‘买河南、卖全国乃至卖全球’的农产品上行渠道。$$8月20日至21日,2018全国农产品产销对接行首场对接和启动
报纸
<正>在本届世博会展现的各种新型绿色建材中,一款被称为"透明混凝土"的建筑材料引起广泛关注。在位于浦东园区的意大利馆,记者看到了这种能透光的神奇混凝土。
期刊