【摘 要】
:
在自然语言处理的各项任务中,命名实体识别作为基础任务来说十分重要,它的准确率决定了后续任务的效果。目前命名实体识别算法的研究大多只限于新闻领域,主要识别的实体为人名、地名等,虽然取得了很好的成果,但是在实际应用过程中,需要识别特定领域的命名实体。本文从数学领域出发,探究识别数学命名实体的算法模型。面向数学领域的命名实体识别任务指从数学科技文本中识别出数学命名实体,即数学专有名词,是从海量的文献中挖
论文部分内容阅读
在自然语言处理的各项任务中,命名实体识别作为基础任务来说十分重要,它的准确率决定了后续任务的效果。目前命名实体识别算法的研究大多只限于新闻领域,主要识别的实体为人名、地名等,虽然取得了很好的成果,但是在实际应用过程中,需要识别特定领域的命名实体。本文从数学领域出发,探究识别数学命名实体的算法模型。面向数学领域的命名实体识别任务指从数学科技文本中识别出数学命名实体,即数学专有名词,是从海量的文献中挖掘分析我们所需知识的基础工作。本文将目前命名实体识别任务的主流神经网络模型Bi-LSTM–CRF应用于数学领域的命名实体识别任务中时,发现F1分数为84.74%,而其在新闻领域的F1分数为91.35%,因此本文对Bi-LSTM–CRF模型进行改进,使其能够更好地识别数学命名实体。首先,由于在传统文本表示过程中,词向量无法体现单词多义性的特征,本文将SCI-BERT预训练语言模型引入到模型中,建模数学科技论文场景的词向量表示,同时加快模型收敛速度;其次为了更好地识别命名实体边界,本文使用数学领域词典构建词汇边界特征,使得词向量具有该词在命名实体中的位置信息;最后,本文将单层神经网络改进为堆叠神经网络,通过加深神经网络层数去更好地拟合数学命名实体的特征。由于面向数学领域的命名实体识别任务的标注语料稀缺,因此本文使用正向最大匹配算法标注数学语料,匹配词表为自建数学领域词典。本文算法使用的数据集即为该标注数学语料。本文提出了一个SCI-BERT–Bi-LSTM–CRF神经网络模型,通过实验证明了本文模型达到比模型Bi-LSTM–CRF更好的研究效果:命名实体的F1分数由84.74%提高至90.02%,同时也展望了其在数学科技论文写作以及数学科技文本分类两方面的应用前景。
其他文献
我国国家权力配置坚决反对西方的分权原则,而是在人民代表大会制之下进行权力分工。属性论、职能论和过程论是权力分工的三种基本方式,我国国家机构之间的权力分工综合使用了这三种权力分工方式。我国并不是根据权力分工的类型化创设国家机构,而是根据国家职能来设置国家机构,进而确定国家机构的性质及其权力分工状况。我国国家机构的权力分工存在双重结构,在主要国家机构创设层面,全国人民代表大会、国务院、中央军事委员会、
2019年春,吉林省文物考古研究所联合吉林大学考古学院对吉林省延边朝鲜族自治州的布尔哈通河及其支流细鳞河、依兰河流域进行了旧石器考古调查。在龙井市老头沟镇、铜佛寺镇,延吉市朝阳川镇、依兰镇发现新遗址点12处,石制品365件。本文将对这些石制品进行整理分析,加强我们对该流域石器整体文化面貌的认识,更加全面地了解吉林省打制石器工业内涵。全文共分为4章:第1章:绪论布尔哈通河是图们江的二级支流,该流域于
增强子是短基因组区域,通常对远程编码区域发挥组织特异性调节作用.在原核和真核基因组中均可以观察到增强子,准确的识别增强子片段有助于更好地理解转录调控机制.本文将每个k-mer(SeqPose)的位置信息引入DNA序列的编码策略中,并结合双向长短期记忆神经网路以及注意力机制构建增强子分类器.本文提出的分类器的第一层用来识别增强子和非增强子,第二层评估检测到的增强子的转录调控强度.不同的是,现有的研究
地震学在上地幔,过渡带以及核幔边界处观测到了许多超低速度带的存在,这些超低速度带的形成多被归因于硅酸盐的熔融或部分熔融。玻璃常作为一种熔体的类似物用来研究地球内部致密岩浆的性质。因此研究硅酸盐玻璃的高压行为(如声速、相变和状态方程)有助于理解熔体在高压下的特性。MgSiO3是地球内部地幔中含量最丰富的成分,研究MgSiO3玻璃的高压性质对了解地球深部超低速度带具有重要意义。Al2O3也是地球内部最
本文的目的是研究在热辐射存在的情况下,纳米流体沿着收缩/拉伸薄板表面流动时的热传递状况,并得到流体动力学基本方程的具有对偶性质的精确解.为了详细探究上述问题,首先,通过给定的流体模型,确定由连续性方程,动量方程和能量方程构成的控制偏微分方程组,并使用热辐射项定义对流换热边界条件.然后,通过使用恰当的相似变换替换动量方程和能量方程中的速度和温度项,将关于动量方程和能量方程的偏微分方程转换为无量纲非线
华宇墓地位于山西省大同市魏都大道东侧,云波路北侧,南环路南侧。2014年,为了配合大同市华宇广场的建设进行了首次发掘。2019年,大同市考古研究所对该区域再次进行了考古调查并发掘墓葬70余座,清理出62例个体,其中时代属于北魏的个体共50例。这批人骨年代确切,阶层相近,或为同族墓地。对这批材料进行体质人类学研究,不仅可以了解该人群的社会结构、生业模式、经济发展水平和营养健康状况,更能够反映出北魏时
苏轼的地理学思想与实践散见于其《书传》、《易传》、文赋、奏议、诗词、题记之中,不仅具有渊博的地理学知识,而且往往能够在理政实践中加以运用。《书传·禹贡篇》是苏轼重要的地理学专篇,虽然以儒家义理阐释《尚书·禹贡》,但体现了苏轼非凡的历史地理知识与见解。苏轼以辩证的自然地理哲学观念解《易传》,认为自然之力虽然不可抗拒,但对一些自然地理现象只要细加探讨是可以认识的,且有一定规律可循。苏轼的自然地理学思想
为使地球物理探测技术手段更具适用性和针对性,介绍了环境污染调查中常用的物探技术方法,包括高密度电阻率法和探地雷达法。分析了物探方法在环境污染调查中的应用,包括在垃圾填埋场填埋边界及渗滤液渗漏污染调查、有机污染物调查、地下填埋固体废物调查、污染场地修复及效果评估过程监测中的应用,对环境物探技术的发展方向进行了展望,以期推动生态环境的精准查污和科学治污。
非线性方程在自然科学和社会科学领域有着广泛应用.它可以用来模拟物理过程,解决生态系统和经济系统中遇到的问题.但绝大多数非线性方程没有解析解,因此对于它的数值方法的研究具有十分重要的意义.本文针对二阶非线性椭圆方程,使用有限体积元法求解并给出严格的误差估计.首先,对求解区域进行一般凸四边形网格剖分,选取等参双线性元空间为试探函数空间,分片常数函数空间为检验函数空间,构造了相应的有限体积元格式.其次,
目的 :分析研究柴葛牵正汤治疗面神经炎的临床疗效。方法:本次将东莞市长安新安医院在2018年2月-2020年6月收治的60例面神经炎患者作为研究的对象,按随机数字表法分成两组,其中对照组30例采取常规西医药物治疗,观察组30例则采取中药柴葛牵正汤治疗,进一步比较两组临床治疗效果。结果:(1)在治疗总有效率方面,观察组与对照组比较更高(P <0.05)。(2)在面部表情肌瘫痪、前额皱纹消失、眼裂扩大