基于混合模型的生物医学命名实体识别研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:apple321lg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物医学命名实体识别是生物医学信息提取的基础和关键任务,准确地识别出生物医学命名实体对于基因关系抽取和生物知识发现等复杂任务有着至关重要的作用。生物医学领域的命名实体具有复杂多变的特点,这给识别任务带来了一定的困难。此外,随着生物医学的快速发展,以指数增长的文献量也给生物医学命名实体的自动准确识别带来了巨大挑战。本文基于混合模型对生物医学命名实体识别进行了研究和探索。论文的主要研究工作如下:(1)引入了包括词特征、拼写特征、浅层语法块特征和词性特征等在内的丰富语言学特征,应用于生物医学命名实体识别任务。提出了一种递增式的特征选择方法,结合序列标记模型条件随机场(Conditional Random Field,CRF)和分类模型支持向量机,研究人工语言学特征的有效性,从而选择出更适合当前模型的可靠特征集。(2)为了研究和分析深度学习在生物医学命名实体识别上的技术应用,构建了三种深层结构的实体识别模型来对比其性能。一是双向长短时记忆神经网络模型(Bi LSTM);二是深层CRF模型;三是结合了Bi LSTM序列特征提取能力和CRF句子信息提取优势的混合模型——双向长短时记忆神经网络-条件随机场模型(Bi LSTM-CRF)。此外,通过词向量与神经网络相结合的无监督方式,使原本需要复杂特征工程的识别任务更加端到端化。为了探究词义信息对生物医学命名实体识别任务的作用,引入了三种不同来源的词向量。同时以实际任务的收益为评价标准,分析了任务相关词向量的维度和领域等参数对其质量的影响。本文使用JNLPBA标准数据集作为实验语料,对生物医学命名实体识别任务的特征和模型等内容进行了研究。在不引入规则和词典的情况下,获得了74.93%的F值,验证了所提出研究方法的有效性。
其他文献
乡土文化蕴含着丰富的语文课程资源,对其进行深入的挖掘与利用,有利于提高学生的阅读鉴赏能力、写作能力和文化素养,培养学生爱家乡、爱祖国的热情。把乡土文化资源渗透到语
通过浸水车辙试验及冻融劈裂试验,对不同级配、不同沥青胶结料组成的9 种超薄层沥 青混合料进行工作稳定性评价%结果表明, Type - BSBS 改性沥青混合料、改良型 SM A -1 0
<正>什么是美?听李健的歌是一种美的享受,他的浅吟低唱,如诗般直击人的心灵,让人沉醉,让人迷恋;品《班主任修炼之道》亦成为生活中美的领悟,那真诚的文字诉说着一程程美好的
政府统计调查体系是由政府统计体制决定的。现有政府统计体系由政府综合统计系统和政府部门统计系统组成,政府综合统计体制实行“统一领导、分级负责”的管理模式。国家统计局
随着FPSO在世界范围内的广泛应用,永久系泊系统作为FPSO的核心设备,也根据不同的应用环境和自身特性划分为许多型式.对于船形FPSO的永久系泊系统来说,较为常见的为单点系泊系
随着西部大开发政策的深入实施,以及青藏铁路的全线通车,青海、西藏两省区开始重视加强区域经济合作,青藏铁路经济带的探索和建设也得以展开。在青藏区域经进交流和合作过程
本文探讨了计算机多媒体智能中控网络系统的工作原理,分析了中控网络系统的硬件设计、中控网络管理系统的设计,研究了多媒体中控系统的使用。