基于并行多池化CNN的生物医学事件抽取

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:zhaoliping1984
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物医学事件关注于生物医学分子的具体表现行为,对药物研制和疾病预防具有重要的意义。对生物医学事件精准地抽取,往往需要自动地综合分析生物医学文献中所描述的内容。现阶段,生物医学事件抽取已经吸引了众多的关注并且许多方法被相继提出。一个完整的生物医学事件,主要由触发事件发生的触发词和事件参与者—要素组成。传统方法中,基于浅层机器学习方法在生物医学事件触发词识别和要素识别中均取得了较好的性能,但这些方法往往需要设计大量的复杂人工特征来提高识别结果,进而导致系统泛化能力的降低。同时,浅层机器学习方法所采用的one-hot编码方式无法表示词之间的语义信息。为了解决这些问题,基于神经网络和词向量的深度学习方法最近被提出,但这些方法缺乏对词向量中语义信息的组合学习能力。因此,本文提出一种并行多池化卷积神经网络(PMCNN:parallel multi-pooling convolutional neural network)的方法分别对生物医学事件触发词和要素进行识别。首先,本文以无监督的方式从大规模生物医学文本数据中学习到一种基于依存关系的词向量。相比于Skip-gram模型训练得到的词向量,基于依存关系的词向量可以获取更丰富的语义信息,有助于生物医学事件抽取任务。然后,由并行多池化卷积神经网络模型从基于依存关系的词向量中捕获句子的组合语义特征,其中的动态多池化操作具有处理句子中含有多个事件的能力,所学到深层语义特征将送到softmax分类器得到触发词和要素的识别结果。此外,PMCNN模型使用修正的线性激活函数,使得神经网络可以轻松的获得稀疏性表示,从而有效的反映了原始生物医学数据的稀疏性,更有利于提升生物医学事件的抽取性能。最终,所得到的生物医学事件触发词和要素识别结果,由基于SVM的后处理方法来学习满足事件约束的结构组合,生成完整的生物医学事件。本文提出的全新的生物医学事件抽取模型在触发词和要素识别中自动地捕获句子的组合语义信息,以满足结构复杂和更精细化的生物医学事件对语义信息的需求。在MLEE数据集上,触发词的识别结果为80.27%(F1值),事件的抽取结果为59.65%(F1值),均好于现有其他方法。
其他文献
在计算机辅助设计(CAD)和计算机辅助工程(CAE)的无缝集成过程中,需要首先对CAD模型进行几何预处理,进行含各种特征抑制的几何简化,以提高后续网格生成的速度与质量,满足高端
基于IMS(IPMultiMedia Subsystem,IP多媒体子系统)的下一代融合网络,由于链路的开放性,和提供业务的个性化和多样化,以及涉及信息的敏感性,用户的接入安全和访问控制也变得日益重要
在充分了解JSON序列化机制与数据传输效率研究现状的基础上,为使应用程序的开发能够选择更合适、数据传输效率更高的数据传输格式,也为数据格式的选择提供更有力的参考依据,
由于电子商务网站的成功发展,在线购物已经成为一种方便、快捷、廉价的购物方式,随之而来的是图像数据呈现几何级数增长,如何对如此超大规模的购物图像进行有效搜索成为近年
旅行商问题(Traveling Salesman Problem,简称TSP)是组合优化问题中的经典问题,也是一个NP完全问题。同时,它也是众多优化问题的简化形式,如基因组制图、行星探索、电路板钻
电子商务的普及使得利用电子商务进行购物的用户飞速增长,但随着网络上的商品信息越来越多,如何快速有效地从海量的商品信息中选择出用户需要的商品成为用户关心的重要问题。
图像匹配是数字图像图像处理研究领域的一个热点和难点,随着计算机技术和匹配理论的发展,其应用领域越来越广泛,已经从当初的军事领域逐渐发展到人们的日常生活和工业生产之中。
针对当前市场上的视频监控系统受网络带宽的限制、需要呈现高质量的视频图像等情况,提出了在有较好扩展性的实时流传输协议和H.264编码技术的基础上实现的视频监控系统,实现
在微波集成电路和高速数字电路中,平面传输线不连续性是一个普遍存在的问题,也是理论分析和工程应用中一个较为复杂的问题。常用的平面传输线有微带线、共面波导、带状线、槽线
数字全息术是一种可用于三维微结构非接触、准实时、高灵敏、高精度、高分辨且全场可视化测量与表征的新型全息方法。位相解包裹是实现数字全息三维重构中的一个重要环节,它