【摘 要】
:
生物医学命名实体识别作为生物信息抽取领域的基础性任务,是生物实体关系抽取、事件抽取等任务的先决条件。目前生物医学命名实体识别任务采用的主流方法是基于深度学习的方
论文部分内容阅读
生物医学命名实体识别作为生物信息抽取领域的基础性任务,是生物实体关系抽取、事件抽取等任务的先决条件。目前生物医学命名实体识别任务采用的主流方法是基于深度学习的方法,其可以避免复杂的语言学分析,从而减低人工特征工程的代价。然而,现有的基于神经网络方法的识别性能并没有达到最优的浅层机器学习效果。因此如何利用深度学习方法提升生物医学命名实体识别任务的性能是本文的主要研究内容。为了避免传统的神经网络框架忽略一些潜在的单词级别与句子级别的语义信息,本文提出了一个整合双通道与句子级读入控制门的新LSTM框架。在输入部分,增加双通道分别获取来自静态词向量和微调词向量的两种语义信息。然后,在神经网络内部整合了读入控制门来决定句子表示向量的传播情况。最后,在输出标记时利用CRF模型充分考虑上下文单词的类型间的依赖关系。在BioCreative II GM语料上取得了89.49%的F1值。虽然在输入部分整合双通道可以考虑更加丰富的语义信息,但在语料中出现未登录词时还存在一定的问题。因此,本文在整合句子级读入控制门的基础上,考虑了字符级词向量与语言模型。在输入部分加入字符级词向量更准确的刻画单词本身的拼写信息,并基于注意力机制对字符级词向量与原始词向量进行组合作为网络的最终输入。同时,将语言模型集成至神经网络框架中,充分利用所有训练数据来学习语义和句法组成的一般特征表示。然后,神经网络可以通过语言模型学习到的特征表示来更准确地预测单词的标记。最后,在Bio Creative II GM语料上的F1值为89.94%,优于现存的所有系统,并在JNLPBA语料上取得了74.80%的F1值,也达到了令人满意的效果。综上,本文应用了两种深度学习方法提升生物医学命名实体识别任务的性能。最后,在没有加入任何人工特征与后处理操作的情况下,本文在BioCreative II GM语料上取得了89.94%的F1值,并且比目前最好系统的F1值提高了0.89%。
其他文献
随着社会经济与科技的飞速发展,各行各业均得到了不断的发展与壮大,金属材料作为工业材料中的关键内容,具有十分重要的地位。由于金属材料冷处理工艺较为复杂,热处理技术较为
当前,国有企业的用工体制正面临着重大的变化和挑战,多种用工形式共存的雇佣背景使国有企业的雇佣关系管理变得更加复杂,如何寻求一种“最佳雇佣模式”成为国有企业用人机制改革中的重要问题。同时,随着国有企业市场化用人机制改革,员工对国企的认同水平日渐降低,人浮于事、敬业度水平低等管理问题也逐渐显现。此外,在学术研究中,雇佣关系模式与员工态度和行为之间的作用机制尚未被完全揭示。因此,本文期望通过研究国有企业
介绍了用有限单元法建立的炉缸炉底侵蚀模型,及用VB编制的高炉通用的炉缸炉底温度场及应力计算软件。该软件在侵蚀线逼近问题上采用一种新的方法即单元物性转换法,大大减少了
本文在求逆矩阵的常用方法上提出了另外三种求某些逆矩阵的方法,详细介绍了应用分块矩阵求某些特殊逆矩阵的若干方法,并给出相应的例子,其解法思路更简洁。供学习有关矩阵方
由于现阶段科学技术的不断发展,城市化改造进程的不断深化,我国的建筑施工技术的水平得到了前所未有的跨越式提升。如今在建筑领域竞争日趋激烈,掌握引导未来建筑市场发展的
金霉素滴眼剂较早的处方是盐酸金霉素0.5克,氯化钠1.25克,硼砂0.5克,蒸溜水加至100毫升。这个处方有一些缺点:(1)保存时间短,一般在室温中最多只能保存48小时,2~4℃也只能保
南江县位于四川东北边缘,辖48个乡镇、523个村,幅员3383平方公里,总人口63万。作为国定贫困县、全国、全省科技进步县,全县紧紧抓住四川省首批科技特派员制度试点县的难得历
空心微球是惯性约束聚变(ICF)研究中重要的燃料容器,其中空心微球表面的金属涂层是微球靶壳层不可缺少的组成部分,具有提高微球的保气性能、耐冲击性能、压缩效率、和降低内
脍炙人口的的英语广告是激烈的竞争以及作者匠心独具的产物。为了使广告新颖别致、形象生动、引人入胜,英语广告常常使用各种修辞手法来增强广告的效果,唤起人们的审美情趣。
区域高校社会服务需要系统而完备的机制予以保证.以区域高校社会服务相关内外因素的关系,区域高校社会服务机制的基本框架划分为外部机制和区域高校社会服务内部机制两大部分