基于深度学习的生物医学事件抽取研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:cnfjwbx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代下可公开获得的生物文献数据迅速增长,系统生物学家对于构建复杂生物关系网络的需求也越来越迫切,从海量的生物文献中挖掘满足系统生物学家研究需求的知识变得越来越重要,而传统的关系抽取只能针对简单的二元实体关系,并不能满足系统生物学发展的需要,因此,旨在抽取细粒度的生物实体之间复杂关系的生物医学事件抽取应运而生,成为生物医学以及自然语言处理领域一个非常重要的研究课题,并被广泛应用于通路扩展、本体库建设以及语义网络构建等领域。传统的机器学习方法在生物医学事件抽取中得到了很好的应用,本文在前人研究的基础上,对事件抽取进行进一步的探索,主要研究深度学习方法在生物医学事件中的应用。在事件抽取流程上,依然沿用经典的事件抽取流程:事件触发词识别、事件元素检测、规则后处理。首先,采用分布式表示方法作为单词的特征表示,利用海量无标注的Pubmed摘要数据,基于句法上下文信息,训练获得句法词向量,以捕获单词的功能性语义信息;在事件触发词识别中,我们摒弃复杂的特征设计,以句法词向量为基础,引入额外的语义特征,包括主题特征、词性特征、与实体最小距离特征,共同构建侯选触发词的分布式语义表示,并充分发挥深度学习的优势,自动进行特征学习;在元素检测阶段,利用卷积神经网络模型对句子进行建模的能力,基于触发词-实体以及触发词-触发词依存路径特征,以句法词向量作为主要输入,并引入其它语义特征,包括词性特征、与实体相对距离特征、触发词或实体类型特征,作为句法词向量的补充,通过卷积与池化操作,学习句子级别的特征表示,以识别事件元素;最后,根据数据集对事件的定义设计后处理规则,通过分解、组合生成最终的事件表示。本文主要在MLEE数据集上进行实验,建立基于深度学习方法的事件抽取模型,获得了不错的实验结果,通过结果还可以看出,本文在触发词识别以及元素检测阶段引入的语义特征能起到有效的辅助作用,有效提升了事件抽取性能。最后,在其它数据集上进行实验,以验证本文所提出的事件抽取方法的泛化性能。
其他文献
随着制造业企业的产能和效率的不断提高,计算机技术的不断发展,制造业信息化和互联网化势必成为一种不断延伸的趋势。作为一个集企业的工艺、采购、生产、销售、库存、财务和
汽车仪表是汽车在行驶过程中与驾驶员最重要、最直接的信息交流中心,对汽车的安全行驶起到了非常重要的作用。汽车仪表是汽车的重要部件之一,能集中、直观、迅速地反映汽车在
随着互联网技术的发展和普及,网络己成为人们获取各种信息和数字化资源的重要途径。然而,大型网站上日益增多的资源在给用户带来更多选择的同时,也使得用户不得不花费更多的
无线传感器网络是近年来信息技术领域的一个研究热点,它集成了无线通信、感知、嵌入式计算和网格计算等技术,是一种典型的无基础设施通信网络。它由分布在监测区域内大量的微
DNA模体识别问题是生物信息学研究的最核心的问题之一。模体蕴含着丰富的生命特征信息。模体识别技术的出发点是找出序列间的相似片段,通过这些相似片段发现基因的表达调控规
随着海运物流业务的发展,订舱中心在整个海运物流行业中扮演着越来越重要的角色。而由于物流信息化的推进,海运订舱方式也由传统的纸质订舱转变为现在的网上订舱。近几年移动
随着汽车行业的发展,汽车电子系统所涉及的系统类型日趋复杂,以传统的分离式系统架构和各厂商独立开发的方法来设计汽车电子系统已逐渐暴露出系统架构不统一,代码重用性差等
蚁群算法(Ant Colony Algorithm,ACA)是20世纪90年代初期提出的一种新型模拟进化算法。其思想吸收了蚂蚁的行为特征,通过模拟真实蚁群探索食物的过程来完成对问题的求解。它
现代互联网技术在不断的发展,网络的规模也日益扩大,它为人们的生活带来许多方便。但与此同时,网络的安全也成为了人们所面临的问题。入侵检测技术可以用来防止网络中的入侵
随着我国交通事业迅猛发展,人工收费这种收费方式已不能满足高速公路管理现代化的需求。开发先进的高速公路联网收费系统具有重大的现实意义。车道收费软件是整个高速公路收