【摘 要】
:
命名实体识别是进行文本处理的基础技术手段,深度学习因其强大的学习能力能够挖掘更深层次的文本特征而深受命名实体识别领域研究者的青睐。基于深度学习的命名实体识别通常被当作序列标注任务,而单一的特征提取器提取特征的能力不足,通常不能对文本的全局和局部信息进行综合考量,无法满足同时对全局和局部特征进行提取的需求。除此之外,传统输入嵌入往往只注重词级别的特征表示,这对英文文本固然是好的,但对于中文文本就显得
论文部分内容阅读
命名实体识别是进行文本处理的基础技术手段,深度学习因其强大的学习能力能够挖掘更深层次的文本特征而深受命名实体识别领域研究者的青睐。基于深度学习的命名实体识别通常被当作序列标注任务,而单一的特征提取器提取特征的能力不足,通常不能对文本的全局和局部信息进行综合考量,无法满足同时对全局和局部特征进行提取的需求。除此之外,传统输入嵌入往往只注重词级别的特征表示,这对英文文本固然是好的,但对于中文文本就显得特征表示不够。在中文命名实体识别任务中,基于字的特征表示虽然迎合了中文语句以字为单位且没有天然分词的特点,但却忽视了汉字本身所包含的字音、字形特征和语句的全局语义信息,存在无法表示出汉字的一字多音不同义和一音多字不同义以及相似字形具有相似含义的问题,从而导致NER模型的识别效果不理想。针对上述提及的问题,本文基于深度学习方法,提出了两个中文命名实体识别模型,主要研究工作如下:(1)针对传统NER模型存在的特征种类单一和语义表示不充分的问题,本文提出了融合多种嵌入表示的中文命名实体识别模型(FMER-CNER)。模型在BiLSTM-CRF模型的基础上对其输入层进行改进。在输入表示层利用百度ERNIE预训练语言模型生成得到字嵌入和句子嵌入,在建模字级语义特征的同时增加对句子级语义特征的表示,在此基础上额外引入了包括拼音、五笔和四角码在内的字音、字形特征,通过多种特征融合的方式进一步增强模型的语义表示能力。最后用Bi LSTM-CRF模型完成提取特征和得到最优标签序列的任务。(2)为了将多种特征进行充分融合,本文在FMER-CNER模型中专门设计了向量融合层。它由全连接层、Bi LSTM网络和多头注意力机制三部分组成,作为相对独立的工具型模块,其主要作用除了将两个横向拼接的矩阵进行融合且保持矩阵维度与拼接前的单一矩阵维度一致之外,还能够通过Bi LSTM网络和多头注意力机制对两个矩阵的特征进行提取并且根据信息的重要程度进一步获取更关键的特征。(3)为了解决单一神经网络特征提取能力不足的问题,本文提出了增强特征提取的中文命名实体识别模型(EFE-CNER)。模型以FMER-CNER模型得到的融合嵌入表示为输入,对特征提取环节进行改进。将TextCNN与BiLSTM网络并行,二者联合提取特征,不仅充分利用了Bi LSTM网络能够建模上下文全局信息的能力,还兼顾了Text CNN提取局部特征的优势,二者相辅相成,再分别为二者添加多头注意力机制聚焦关键信息,以多方联合的方式增强模型的特征提取能力。最后利用CRF解码得到最优标签序列。(4)将本文提出的两个模型在MSRA中文数据集上进行实验验证,实验结果表明本文提出的两个中文NER模型均能有效提升中文命名实体识别的结果,且测试结果优于其他对比实验的结果,证明了模型的有效性和优越性。
其他文献
体积压裂是油气藏增产常用的开采技术手段,体积压裂能够在储层中形成纵横交错的复杂缝网,再泵入含有支撑剂的携砂液来填充裂缝能够获得具有高导流能力的渗流通道,而未被支撑剂填充的裂缝会在地层压力下闭合从而降低导流能力。因此,研究复杂缝网压裂输砂规律和砂堤铺置形态,获得最优的支撑剂铺置效果,对体积压裂施工具有理论指导意义。本文在调研前人研究的基础上,采用大型可视化复杂缝网模拟实验装置,开展了复杂缝网支撑剂运
本文利用MIDAS模型研究了1915—1935年中国净出口、总收入和实际汇率间的关系,并进一步分析各种突发事件对中国经济前景预期及进口需求的影响。文章认为,进口在中国对外贸易平衡中占有更重要的位置,1915—1935年中国贸易逆差的缩小主要由进口下降造成,而银价上涨、本币升值背景下的进口萎缩则与国内总收入减少有关,从而为银价波动、中国贸易收支缺口与理论不符的关系提供了一种新的解释。引入虚拟变量的模
建立一种气相色谱联合三重四级杆串联质谱法检测地表水中苯达松、乙草胺、异丙隆等7种常用除草剂残留的分析方法。将地表水样品进行预处理后,以全自动固相萃取法选择HLB固相萃取柱对样品进行提取。然后用10 mL的正己烷将吸附在萃取柱上的农药洗脱下来,于45℃水浴中氮气吹至近干,用正己烷定容至1 mL,进样气相色谱串联质谱(GC-MS/MS)分析系统,外标法定量。结果表明,苯达松、乙草胺、异丙隆、丁草胺、嗪
<正>对酒店而言,若想提升自身的经济效益,就需要对经营成本进行管理,而酒店的餐饮成本便是其中较为重要的一部分。酒店的餐饮成本涉及的内容非常多,而物资的流动以及人为操作都让酒店的餐饮成本控制存在较大难度。基于此,本文对酒店餐饮成本的控制方法进行了相应的研究。当下,酒店只有针对自身的实际发展需求,采取有效的餐饮成本控制措施,才能更好地帮助酒店实现预期效益。
【目的】为优化以沙棘叶为原料开发的沙棘叶速溶颗粒冲剂的制粒配方工艺。【方法】通过对冲剂色泽、组织状态、风味口感、溶解性进行权重分析,建立模糊数学感官评价方法,并以模糊综合感官评分为指标,采用正交试验法设计优化其配方和工艺参数。【结果】在麦芽糊精质量分数15%、润湿剂质量分数20%、木糖醇质量分数20%、烘干温度50℃条件下感官评价分数为94.15。该配方制得的颗粒冲剂颗粒均匀,色泽呈均一的咖啡色,
<正>志愿服务是社会文明进步的重要标志。党的十八大以来,以习近平同志为核心的党中央高度重视志愿服务,站在提升社会治理体系和治理能力现代化水平的战略高度,对志愿服务工作作出了一系列重大部署。自治区第十二次党代会强调,要广泛开展文明实践活动和志愿服务活动,深化拓展社会主义精神文明建设。劳动教育是中国特色社会主义教育制度的重要内容。习近平总书记高度重视青少年劳动教育,
任务驱动的跨年级协同第二课堂对新地理信息产业下的GIS应用型人才培养具有重要意义。在明确学生各阶段特征、发展目标、任务与需求的基础上,以村庄规划任务为主线,构建跨年级协作模式。该模式有利于学生巩固所学理论知识,提高其专业实践能力、社会能力、综合能力与开拓创新能力,活跃师生及不同年级学生间的关系,促进科教深度融合,逐步形成宽基础、重应用与个性化的第二课堂模式,有力支撑GIS应用型人才培养。
借鉴项目式学习模式,以“河水中所含物质的探究及河水污染治理”创设真实的问题情境,从定性检验到定量测定,再到治理方法讨论,引导学生提出问题、分析猜想、实验设计和实验验证,进行科学探究,在应用化学知识解决问题的过程中,诊断并发展学生的化学学科核心素养,实现素养为本的课堂教学。