论文部分内容阅读
生物医学事件关注于生物医学分子的具体表现行为,对药物研制和疾病预防具有重要的意义。对生物医学事件精准地抽取,往往需要自动地综合分析生物医学文献中所描述的内容。现阶段,生物医学事件抽取已经吸引了众多的关注并且许多方法被相继提出。一个完整的生物医学事件,主要由触发事件发生的触发词和事件参与者—要素组成。传统方法中,基于浅层机器学习方法在生物医学事件触发词识别和要素识别中均取得了较好的性能,但这些方法往往需要设计大量的复杂人工特征来提高识别结果,进而导致系统泛化能力的降低。同时,浅层机器学习方法所采用的one-hot编码方式无法表示词之间的语义信息。为了解决这些问题,基于神经网络和词向量的深度学习方法最近被提出,但这些方法缺乏对词向量中语义信息的组合学习能力。因此,本文提出一种并行多池化卷积神经网络(PMCNN:parallel multi-pooling convolutional neural network)的方法分别对生物医学事件触发词和要素进行识别。首先,本文以无监督的方式从大规模生物医学文本数据中学习到一种基于依存关系的词向量。相比于Skip-gram模型训练得到的词向量,基于依存关系的词向量可以获取更丰富的语义信息,有助于生物医学事件抽取任务。然后,由并行多池化卷积神经网络模型从基于依存关系的词向量中捕获句子的组合语义特征,其中的动态多池化操作具有处理句子中含有多个事件的能力,所学到深层语义特征将送到softmax分类器得到触发词和要素的识别结果。此外,PMCNN模型使用修正的线性激活函数,使得神经网络可以轻松的获得稀疏性表示,从而有效的反映了原始生物医学数据的稀疏性,更有利于提升生物医学事件的抽取性能。最终,所得到的生物医学事件触发词和要素识别结果,由基于SVM的后处理方法来学习满足事件约束的结构组合,生成完整的生物医学事件。本文提出的全新的生物医学事件抽取模型在触发词和要素识别中自动地捕获句子的组合语义信息,以满足结构复杂和更精细化的生物医学事件对语义信息的需求。在MLEE数据集上,触发词的识别结果为80.27%(F1值),事件的抽取结果为59.65%(F1值),均好于现有其他方法。