【摘 要】
:
随着网络中文本规模的不断增长,文本中所蕴含的语义信息也越发的丰富,如何从这些海量文本数据中获取有用的结构化知识,已成为目前国内外研究的热点。命名实体识别(Named Entity Recognition,NER)作为自然语言处理的一个热门研究方向,已广泛应用于关系抽取、问答系统和机器翻译等多种自然语言处理任务。本文主要针对命名实体识别中存在的问题,进行了相关的研究。第一,目前大多数中文命名实体识别
论文部分内容阅读
随着网络中文本规模的不断增长,文本中所蕴含的语义信息也越发的丰富,如何从这些海量文本数据中获取有用的结构化知识,已成为目前国内外研究的热点。命名实体识别(Named Entity Recognition,NER)作为自然语言处理的一个热门研究方向,已广泛应用于关系抽取、问答系统和机器翻译等多种自然语言处理任务。本文主要针对命名实体识别中存在的问题,进行了相关的研究。第一,目前大多数中文命名实体识别方法大多利用单一级别的特征进行识别,没有同时考虑字和词级别特征,难以获取足够的字形信息和词义信息。因此将字形信息与词义信息进行有效的结合对于中文命名实体识别方法具有重要的现实意义。第二,在命名实体领域,多采用循环神经网络的模型,由于循环神经网络在计算的过程中主要以递归为主,时间成本较大。相比较而言,卷积神经网络由于属于一种前馈神经网络,时间成本小,但是卷积神经网络由于不擅长处理时间序列任务。因此仅使用一种网络实现两种网络的功能,具有重要的现实意义。本文主要研究内容与创新工作如下:(1)针对目前大多数中文命名实体识别方法大多利用单一级别的特征进行识别,没有同时考虑字和词级别特征,难以获取足够的字形信息和词义信息。为了探索把字级别与词级别特征进行有效的融合,从而改善只基于字或词级别特征的单一模型识别效果,本文提出一种基于多级别特征感知网络的中文命名实体识别方法。最终在MSRA和《人民日报》数据集进行广泛实验。同时与近年来主流的中文命名实体识别方法进行比较。实验结果表明所提方法在MSRA和Resume数据集中实体识别的F1分别达到92.15%和94.32%,在《人民日报》数据集上识别人名、地名和机构名的F1分别达到94.28%、94.17%和90.33%。总体上优于近年来主流的中文命名实体识别方法。(2)在命名实体识别领域,多采用循环神经网络的模型,由于循环神经网络在计算的过程中主要以递归为主,时间成本较大。相比较而言,卷积神经网络由于是一种前馈神经网络,时间成本小,但是卷积神经网络由于不擅长处理时间序列任务。针对上述情况,本文构建一种多通道空洞自注意力卷积网络,从而更好的“代替”循环神经网络。实验结果表明,本文所提的方法在Co NLL-2003 English NER与Onto Notes5.0在两个英文数据集上的结果总体上优于近年来主流的命名实体识别方法。(3)现如今结构化的电子病历已逐渐成为各级医疗机构采集病人信息的主要手段,在此之前,医院仍然保留着许多非结构化的病历。由于尚不能从海量的、非结构化的病历直接进行检索,因此大量的病历不能发挥出至关重要的作用。因此,如何从这些海量的非结构化病例中充分挖掘其中有效的信息,已经成为现代医学领域一个难点问题。近年来,伴随着计算机技术的飞速发展,将自然语言处理与电子病历相结合,已经成为一个热点问题。其中基础环节就是提取电子病历中的实体。文本将基于多级别特征感知网络的中文命名实体识别方法运用到电子病历中的实体识别的实际应用中。本文首先介绍一款中文电子病历的命名实体识别系统,主要用于获取一些非结构化的中文电子病历,将这些文本输入放入训练好的模型中,最后展示文本中的识别,并将它们按照实体类别存储,便于今后构建结构化的电子病历。
其他文献
新一轮的课改使一线教师面临了更多选择和思考,针对“三角函数的图像与性质(第一课时)”这节课,在不同的教材版本、不同的主题背景下,教师进行了个性化的教学演绎,研究者对其进行了整理、比较、反思.
《普通高中数学课程标准(2017年版2020年修订)》的重点是落实数学学科核心素养,高中数学课堂教学应以发展学生数学学科核心素养为导向,[1]创设合适的教学情境,启发学生思考,引导学生把握数学内容的本质.[2]事实上,教师讲学生听仍是当前课堂的常见样式,这一种教学方式因学生缺乏学习的主动性,既不利于学生对知识的掌握,
节选自《2020年中国互联网证券行业发展状况研究报告》一、互联网证券现状2018年至2020年,中国证券行业总资产规模持续扩大,其中同一年度的不同季度间有小幅的波动状况。截至2020年6月30日,中国134家证券公司实现营业收入8.03万亿元,受托管理资金本金总额达到11.83万亿元。随着中国资本市场发展,证券业也保持稳定增长,在2020年第一季度各行业受到新冠肺炎疫情冲击的情况下,行业仍有
为了有效地培养学生的数学学科核心素养,在基于ADE模型进行学习内容分析、学生认知分析的基础上,依据“五环十步”研究型教学模式对“等式性质与不等式性质”进行了单元教学设计.
申请公布号:CN 113896994A申请公布日:2022年1月7日申请人:江苏冠联新材料科技股份有限公司发明人:徐正伟、苏怀生、井垒等本发明介绍了一种管道止水阀密封件用三元乙丙橡胶配方,该胶料的组分及其用量为:三元乙丙橡胶45~52,炭黑33~38,软化增塑剂7~10,活性剂2.5~3,硫化剂2.0~2.5。该胶料在使用环境下强度高、耐介质和耐磨性能优异,压缩变形低,使用寿命长。
涵泳是一种通过反复诵读的方式仔细阅读,领会文本深意的方法。宋朝学者朱熹就曾提出学者读书要"虚心涵泳,切己省察。"汉语在语义上具有模糊性和随意性,这致使以汉语撰写的文本也有含蓄美,而涵泳法正是通过整体性思维的方式对文本进行深入探究和玩味的好方法。在高中
目的 基于网络药理学方法探讨丹红化瘀口服液治疗深静脉血栓(deep vein thrombosis,DVT)的作用机制。方法利用中药系统药理学技术平台数据库(TCMSP)获取丹红化瘀口服液的主要化学成分及作用靶点,利用Uniprot数据库对获取的作用靶点进行规范化处理;通过DisGeNet、GeneCards、OMIM、DrugBank数据库获取DVT相关靶点;利用Venny 2.1.0绘图网站构
目的 基于网络药理学探究丹红化瘀口服液治疗视网膜静脉中央阻塞症的作用机制。方法 选取丹红化瘀口服液中的21个入血成分为研究对象,借助TCMSP和CTD数据库预测化合物的作用靶点,利用MAS 3.0生物分子功能软件获取相关通路,通过FUNRICH软件对获得靶点进行基因本体(gene ontology,GO)功能富集分析,最后利用Cytoscape软件构建“化合物-靶点-通路-疾病”网络图。结果 21
一、案例概述英语学科核心素养包括语言能力、文化意识、思维品质和学习能力。作业具有巩固知识与技能、发展学习能力、提升思维品质、培育文化意识和学习习惯等功能,对于学生核心素养的培育具有重要作用。本文笔者依据《小学作业设计与实施指导手册》开展小学高年级英语作业实践,作业的批改和讲评从一元走向多元,更加注重对学生思维的启发、兴趣的激发和学习能力的培养,把英语学科核心素养落到实处。
门店选址直接影响店铺的盈利和存续。在既有的研究中,门店选址主要分为两种,一种是基于GIS的选址,这种方法通常高度依赖于GIS软件,大量使用空间分析工具,虽然效果直观、操作方便,但仍然受限于软件本身的性能和方法本身的局限性;另一种是使用数据分析软件对数据进行探索性分析,基于分析结果使用合适的数学建模方法进行模拟和预测,这种方式有较高的准确率但在处理空间数据方面算法较为复杂。近年来随着互联网、人工智能