论文部分内容阅读
大数据时代下可公开获得的生物文献数据迅速增长,系统生物学家对于构建复杂生物关系网络的需求也越来越迫切,从海量的生物文献中挖掘满足系统生物学家研究需求的知识变得越来越重要,而传统的关系抽取只能针对简单的二元实体关系,并不能满足系统生物学发展的需要,因此,旨在抽取细粒度的生物实体之间复杂关系的生物医学事件抽取应运而生,成为生物医学以及自然语言处理领域一个非常重要的研究课题,并被广泛应用于通路扩展、本体库建设以及语义网络构建等领域。传统的机器学习方法在生物医学事件抽取中得到了很好的应用,本文在前人研究的基础上,对事件抽取进行进一步的探索,主要研究深度学习方法在生物医学事件中的应用。在事件抽取流程上,依然沿用经典的事件抽取流程:事件触发词识别、事件元素检测、规则后处理。首先,采用分布式表示方法作为单词的特征表示,利用海量无标注的Pubmed摘要数据,基于句法上下文信息,训练获得句法词向量,以捕获单词的功能性语义信息;在事件触发词识别中,我们摒弃复杂的特征设计,以句法词向量为基础,引入额外的语义特征,包括主题特征、词性特征、与实体最小距离特征,共同构建侯选触发词的分布式语义表示,并充分发挥深度学习的优势,自动进行特征学习;在元素检测阶段,利用卷积神经网络模型对句子进行建模的能力,基于触发词-实体以及触发词-触发词依存路径特征,以句法词向量作为主要输入,并引入其它语义特征,包括词性特征、与实体相对距离特征、触发词或实体类型特征,作为句法词向量的补充,通过卷积与池化操作,学习句子级别的特征表示,以识别事件元素;最后,根据数据集对事件的定义设计后处理规则,通过分解、组合生成最终的事件表示。本文主要在MLEE数据集上进行实验,建立基于深度学习方法的事件抽取模型,获得了不错的实验结果,通过结果还可以看出,本文在触发词识别以及元素检测阶段引入的语义特征能起到有效的辅助作用,有效提升了事件抽取性能。最后,在其它数据集上进行实验,以验证本文所提出的事件抽取方法的泛化性能。