【摘 要】
:
生物医学文本挖掘技术能够自动挖掘出海量生物医学文献中关键性的生物医学知识,对于构建生物医学知识图谱和数据库具有重要推动作用。生物医学命名实体识别作为文本挖掘中的最基础性任务之一,目标为提取文本中的生物医学实体信息。目前已有众多基于深度学习的算法被用于识别生物医学领域内的命名实体。但由于生物医学实体存在一词多义、实体边界难以准确界定以及标签数据的缺乏,导致现有算法识别效果不佳。多任务学习通过在相关联
论文部分内容阅读
生物医学文本挖掘技术能够自动挖掘出海量生物医学文献中关键性的生物医学知识,对于构建生物医学知识图谱和数据库具有重要推动作用。生物医学命名实体识别作为文本挖掘中的最基础性任务之一,目标为提取文本中的生物医学实体信息。目前已有众多基于深度学习的算法被用于识别生物医学领域内的命名实体。但由于生物医学实体存在一词多义、实体边界难以准确界定以及标签数据的缺乏,导致现有算法识别效果不佳。多任务学习通过在相关联任务间引入归纳偏置能够提升每个任务的效果。因此,本文分别提出了利用触发词检测和语言模型等任务来辅助识别生物医学命名实体的方法。本文的主要研究工作如下:(1)本文提出了基于多任务学习的生物医学触发词检测和命名实体识别算法(MTL-TD-NER)。现阶段,标签数据的缺乏严重影响了基于深度学习的命名实体识别算法的效果。命名实体和触发词都是用于描述生物医学事件的关键信息。命名实体识别和触发词检测之间存在互利的特征信息。因此本文提出了基于多任务学习的生物医学触发词检测和命名实体识别算法,算法思想主要是首先采用硬共享方式的特征提取层来同时提取实体识别和触发词检测的相似特征,然后采用不同的分类层分别处理两个任务,最后将两个任务识别的结果信息分别传入到彼此的分类层中帮助彼此进行分类任务。在MLEE数据集上,与基于单个任务的触发词检测算法和命名实体识别算法相比,实验结果表明MTL-TD-NER算法可以同时更好地检测触发词和识别命名实体。(2)本文提出了基于字符级别无监督语言模型的多任务生物医学命名实体识别算法(MTL-CLM-NER)。现阶段,预训练的词向量通常是静态不变,无法很好地处理未登录词问题。生物医学特定领域内的语言学信息有助于改善预训练词向量的质量。因此本文提出了基于字符级别无监督语言模型的多任务生物医学命名实体识别算法,算法思想是首先在特定数据集字符级别上建立无监督的语言模型,以学习特定领域中整个上下文字符级别的信息,然后将字符级别语言模型学习到的语言学知识用于动态地调整命名实体识别模型中的词向量,最后同时训练语言模型与命名实体识别两个任务。在Bacteria和JNLPBA数据集上,与现有基于深度学习的命名实体识别算法相比,实验结果表明MTL-CLM-NER算法在命名实体识别任务上具有更好的识别性能。
其他文献
行人重识别的主要任务是从图像或者视频序列中查找是否存在特定行人。在计算机视觉中行人重识别是比较热门的问题,在智能安防、无人超市、行为分析等众多现实场景下都有着一定的应用。在近几年,专家研究者们在行人重识别上研究成果显著,在常见数据集上取得了较高的准确率。由于实际环境的不确定性,会受到背景复杂、光照变化、运动模糊、不同视角、物体遮挡等因素的影响,行人重识别仍然是一个具有挑战性的课题。并且随着热红外、
智能网联车感知单元收集各项车辆有关的感知数据,数据处理单元对各项数据进行处理并快速决策,执行单元根据决策结果快速响应,各单元协同工作保障网联车的安全行驶。与传统车辆不同,智能网联车的安全行驶基于安全可信的内部模块和安全数据传输。在智能网联车行驶过程中,车辆需要向有关机构和服务提供商进行数据共享,通过多方协同工作保障整个智能交通系统的正常运行。智能网联车的内部模块面临被攻击的风险,并且多模块间的数据
随着CMOS技术节点按比例缩小逐渐走向终结,后摩尔时代新器件将影响和决定未来微电子器件技术发展和集成电路产业格局。传统Si O2栅介质厚度减薄已达到物理极限,其产生的量子隧穿效应极大程度上影响了MOS器件的稳定性及低功耗、高性能电子器件的研发。新型高介电常数(high-k)材料能够在保持或减小等效厚度的同时,能显著提高栅介质层的物理厚度来有效抑制隧穿电流的产生,因此其替代传统的Si O2已成为微电
人类探索太空取得的成就与集成电路技术密不可分,卫星、飞船以及星际探测器等航天器中的系统都是由集成电路实现的。处于宇宙中的航天器面临的辐射环境越来越复杂,因此对集成电路可靠性的需求也不断增加,同时芯片上晶体管的密集度随器件工艺的进步而增加,单粒子效应成为了航空系统失效的主要原因。锁存器单元也是芯片中不可缺少的部分,对其进行抗辐射加固可有效降低集成电路发生软错误的概率。本文以65nm CMOS工艺为基
由于云计算技术不断地完善与发展,云虚拟机资源的分配问题吸引了众多研究人员的关注。一些满足不同经济属性的云资源拍卖机制应运而生。然而,这些机制很少考虑云虚拟机分配过程中数据的安全性。一旦关键的信息被泄露,对于拥有该数据的公司或者组织可能会造成不可估量的损失。因此,隐私数据的安全性是云虚拟机分配过程中亟需解决的问题。安全多方计算技术能够在没有可信第三方的情况下,基于每个参与方的数据进行联合计算,同时保
近年来,一维(1D)纳米结构由于其独特的理化性质、优异的传输特性、大的比表面积以及良好的稳定性而受到广泛关注。以In2O3为代表的1D金属氧化物纳米材料已经被广泛应用于场效应晶体管(FET)的沟道层材料。同时,采用具有高介电常数的栅介质材料代替传统的Si O2栅介质薄膜不仅可以提升器件的电学性能,还可以降低FET器件的驱动电压和功耗。本论文通过简单有效的静电纺丝工艺制备了铟基纳米纤维以及ALD工艺
聚类分析能够充分挖掘无标记样本的内部特征,在未知数据标签和数据分类个数的情况下,自主地将数据集中的数据划分为若干子集,是一种重要的无监督学习方法。目前,该方法已被广泛应用于与人类生活息息相关的多个领域,如决策制定、语音识别、模式处理等。对于聚类分析而言,选择好的聚类算法和合理的最佳聚类数(Optimal cluster number,Kopt)对最终的聚类结果都有着十分重要的影响。但现有的聚类方法
灵敏放大器(Sense Amplifier,SA)是SRAM(Static Random Access Memory)读取过程中的关键模块,它决定了SRAM读取过程的时间、功耗和准确性。随着SRAM存内计算与神经网络的深入结合,灵敏放大器功能单一和面积开销大的问题变得越来越突出,与此同时,神经网络中Sigmoid激活函数复杂的硬件实现也是神经网络存内计算设计中的一个难点。为了有效的解决上述问题,本
微流控技术作为一种操控或处理小尺寸流体的技术,能够在消耗少量样品的情况下进行生化分析。微流控技术具有反应速度快、灵敏度高、样品消耗少的优点,因此广泛应用于化学检测、生物医药等领域。其中开放式液滴微流控系统由于结构简单,方便观察和处理液滴,而且交叉污染的风险低而受到广泛的关注。在微流控技术中,静电力和介电电泳力作为控制微流体的常用方法,具有响应速度快、灵敏度高、功耗低的优点,但通常需要较高的电压。高
软件定义车联网的设计初衷主要是为了利用新型的网络架构来提升传统车联网的交通效率和行驶过程中车辆的安全性。但由于网络本身具有开放性,应用时必须考虑通信过程中的安全性以保护车辆的隐私,防止恶意用户散播虚假消息或是破坏系统。因此,如何确保通信过程中安全有效的消息传输,以及提高突发事件的处理速率,是目前亟需解决的关键问题。本文对面向软件定义车联网的隐私保护认证机制进行了研究,并根据研究结果提出了两个方案,