【摘 要】
:
命名实体识别(Named Entity Recognition,NER)是一项重要且具有挑战性的自然语言处理任务,旨在识别出文本中具有实际意义的实体并对其进行相应的类别划分。针对基于神经网络的方法难以有效覆盖文本语义特征以及难以针对关键信息进行捕捉的问题,本文以BiLSTM-CRF模型为基准,提出了基于注意力机制和多源嵌入的中文命名实体模型使其更适合中文命名实体识别任务。具体研究内容如下:(1)提
论文部分内容阅读
命名实体识别(Named Entity Recognition,NER)是一项重要且具有挑战性的自然语言处理任务,旨在识别出文本中具有实际意义的实体并对其进行相应的类别划分。针对基于神经网络的方法难以有效覆盖文本语义特征以及难以针对关键信息进行捕捉的问题,本文以BiLSTM-CRF模型为基准,提出了基于注意力机制和多源嵌入的中文命名实体模型使其更适合中文命名实体识别任务。具体研究内容如下:(1)提出基于多源嵌入的中文命名实体识别模型(MSE-BiLSTM-CRF)以丰富模型输入所包含的语义信息,并解决了使用单一词向量存在词边界模糊的问题。本文以目前受欢迎的BiLSTM-CRF模型作为基准模型,引入多源嵌入技术。首先将训练完成的字向量和词向量进行对应拼接,将拼接完成的特征向量作为模型的输入;然后,利用BiLSTM网络编码捕获向量的语义特征;最后通过CRF训练学习相邻标签直接的关系,预测并输出最优标注序列。通过在《人民日报》新闻语料集上实验分析,实验显示MSE-BiLSTM-CRF模型能够有效的完成NER任务。(2)在MSE-BiLSTM-CRF模型的基础上引入了注意力机制,解决无法突出上下文中的关键信息的问题。首先,将注意力机制加入神经网络训练中,利用注意力机制计算编码层输出特征的注意力权重,然后对BiLSTM不同时刻输出进行基于注意力权重的加权求和,最终达到突出关键信息的效果。实验结果显示,与MSE-BiLSTM-CRF模型相比,MSE-BiLSTM-Attention-CRF模型识别效果有所提高,在识别准确率、召回率和F值上分别提高了 1.82%、1.37%和1.41%。实验结果显示,本文所提出的MSE-BiLSTM-Attention-CRF模型在《人民日报》1998年NER数据集上,准确率、召回率、F值上分别取得了 90.10%,92.23%和91.15%,在人名、地名和组织名三项实体识别中F1值分别达到了最高的92.37%,90.81%和89.27%。与现有模型相比效果显著。表[14]图[23]参[63]
其他文献
近年来互联网用户逐日剧增,网络中的新闻文本数量呈现出爆炸式的增长趋势,如何对这些海量的新闻文本进行高效的分类和管理,已经成为了当下热门研究课题之一。然而,网络新闻文本结构异于普通文本,传统方式将标题作为正文的一部分来处理,忽视了新闻标题的作用,导致分类效果不理想。因此,需要一种适用于新闻文本的文本分类算法对文本进行分类和整理,从中挖掘出有价值的信息。本文基于上述问题,以提高新闻文本分类准确率为目的
采装一体机作为结合物料采集和输送两个功能的工程机械,可以显著的提升物料开采的可持续性、高效性和安全性,在矿业生产中被应用于巷道等狭小空间和露天环境下矿物等散碎物料的采集装车作业。在实际作业过程中,采装一体机工作装置直接与物料接触,工作装置的工作范围、结构强度和疲劳寿命直接影响采装一体机整机的工作效率和工程进度,因此,有必要对工作装置部件的工作范围、结构强度和疲劳寿命展开深入研究。论文以ZWY-18
近年来,我国经济及交通运输业飞速发展,随着每年公路里程的增加,优质集料稀缺问题日益严重,一种性能与传统集料相似的可运用于沥青路面的新型替代品亟待开发。而钢渣作为炼钢副产品,可以作为二次循环利用安全材料且累积堆存量丰富,在这种情况下,将钢渣应用于路面建材,不但解决了优质集料稀缺、钢渣堆积污染的问题,而且符合国际社会秉持的经济环保、资源循环可持续发展战略。试验采用5种钢渣替代率(0%、25%、50%、
赤泥是生产氧化铝过程中排出的固体废弃物,因缺乏经济、有效地利用途径而不断堆积,且带来了诸多问题,如资源短缺、环境污染以及安全隐患等。此外,赤泥中的碱含量较高,当赤泥取代部分普通硅酸盐水泥时,高碱性环境下水泥熟料会造成砂浆力学强度的不利发展。为此,本文提出采用低熟料M32.5水泥胶结赤泥,提高赤泥与水泥基材料的兼容性,利用赤泥中的碱辅助激发M32.5水泥基材料中的辅料,形成复合胶结体系,主要内容如下
为了保证交通安全,必须严厉打击车辆改装、超载超限行为,车辆识别是开展此项工作的重要内容之一,比如:通过轴距检测判断车辆是否被改装。本文通过车辆侧前方拍摄图像检测车辆参数。车辆轴距检测由两部分组成,其一是进行车辆和车轮定位和分类,其二是在车辆定位和分类的基础上进行轴距检测。由于车辆的重叠和由远及近,图像中车辆轴距检测的准确率和鲁棒性仍然是一大难点,针对此问题,本文的主要工作如下:(1)基于YOLOv
行人检测作为计算机视觉领域重要研究内容之一,其任务是判断输入的图像或视频中是否存在行人,并且判断出行人的位置,该技术可与行人跟踪,行人重识别相结合,在智能监控、智慧交通、智能机器人等领域具有大量应用。尽管行人检测在近年来取得重大突破,但是在现实复杂场景下,行人检测算法的性能与鲁棒性仍然是一大难点问题。在影响行人检测算法的诸多因素中,行人尺度变化、光照变化、遮挡是核心难点问题。本文主要针对行人的尺度
在处理海量的商品评论中,虚假评论的检测始终是维护网络环境健康发展不可或缺的工作。尽管先前的虚假评论检测工作取得了很大进展,但由于欺骗性评论的隐藏性和多样性的特点,欺骗性评论的检测依然很困难。针对这一问题,本文提出了一种基于语义分析和PU learning的虚假评论检测模型。不同于先前的工作,为提高欺骗性评论的检测效率,本文创新的提出利用评论间情感强度的不同,通过情感计算来划分改变虚假评论所在数据集
新能源物流车的广泛使用是物流业在低碳物流范围内运输工具低碳或零碳的具体措施。然而在补贴退坡甚至退出,短期无法取得重大技术突破的背景下,“分时租赁”等商业模式创新可从非技术层面解决新能源物流车的推广应用。新能源物流车共享平台向上与出租方进行合作,聚拢闲散资源,向下对中小型物流企业提供新能源物流车的共享服务,培养其使用新能源物流车的习惯,减少传统的物流车的使用率和保有量。平台可以分摊高额的运营和维修费
近些年随着工程建设的不断扩展,对工程泥浆的需求日益增多,但是对工程废弃泥浆的处理却是迟迟得不到有效解决。与此同时电石渣、矿渣也都面临如此窘境,产量在不断扩增,处理应用却亟待解决。本文依托安徽理工大学环境友好材料与职业健康研究院研发专项基金(ALW2020YF13),以工业废料矿渣作为基本材料并以电石渣为激发材料制成新型复合固化剂。利用新型复合固化剂对泥浆进行固化处理,将宏观室内试验、微观试验现象以
建设项目招投标在我国实施已有三十多年的历程,从一开始在国家级重点项目上试点,到如今全面法定使用,它对国民经济的持续健康发展发挥了重要作用,特别是在建筑工程领域,为规范建筑市场,提高固定资产投资效率做出了巨大贡献。经过三十多年的发展,我国招投标制度体系也已逐步成型并趋于完善,随着国家经济建设的高速发展,招投标市场交易空前繁荣。但在一片繁荣背后,也暴露出诸多问题,制约着建筑行业的进一步健康、高效发展。