论文部分内容阅读
知识抽取是将信息源中的知识进行分析、识别、理解、关联的过程,而抽取自然语言文本中的实体和实体关系是知识抽取的一个重要研究内容。在通用领域,从互联网等无结构文本中抽取实体与实体关系的抽取方法,通常综合应用了词性标注、命名实体识别、文本分类等诸多自然语言处理技术,已被广泛应用于构建知识图谱。对于医学领域,虽然临床诊疗记录、医学文献等医学文本中积累了海量的医学知识,但由于医学领域中知识抽取的复杂性和应用标准的严格性,目前绝大多数医学知识库依旧依赖于专家手工构建。因此,应用于医学领域的知识抽取方法亟待进一步的研究。本文从自然语言处理角度出发对医学文本中医学知识抽取面临的实际问题进行研究,目标是更准确地从医学文本中自动抽取医学领域实体和实体关系。研究将医学领域知识抽取分为三个主要步骤:首先从医学文本中抽取实体描述,然后将抽取的医学实体描述对应到标准实体上,最后从医学文本中抽取关系以建立标准实体间关联关系。此三步分别对应实体识别(Entity Recognition)、实体标准化(Entity Normalization)、关系抽取(Relation Extraction)三个自然语言处理任务。本文的主要研究内容包括以下几个方面:首先,本文对医学领域的实体抽取问题进行研究。由于临床医学文本中的风险因子实体具有多种不同的描述方式,传统用于抽取短语描述的序列标注方法难以处理。针对实体描述方式的差异性问题,本文按照描述方式的不同将风险因子实体重新分类,提出了基于描述方式的实体抽取方法,在序列标注方法的基础上分别构建规则或机器学习模型进行抽取。实验结果表明,该方法能够从医学文本中抽取复杂描述方式的实体,在i2b2 2014心脏病风险因子抽取评测任务上微平均F值达到92.68%,在不加入额外人工标注的方法中取得最佳效果。其次,本文对医学领域的实体标准化进行研究。本文具体研究如何将医学文本中的实体描述对应到医学知识库中标准实体的问题。以往研究主要为规则或浅层机器学习方法,对实体标准化通常停留在词法层面而较少涉及语义。针对一些实体语义相同而词法不同的问题,本文提出一种基于卷积神经网络的排序学习方法,首先采用一种规则过滤方法构建候选集合,然后通过卷积神经网络学习候选集合中实体和实体描述的向量表示,最后使用排序学习方法进行重排序,将不同的医学实体描述映射到标准医学实体上。实验结果表明,该方法在NCBI疾病数据集、Bio Creative V CDR数据集、Sh ARe/CLEF电子病历数据集上与基准方法相比均有更好性能,能够学习实体描述和标准实体之间的语义相似性。然后,本文对医学领域的实体关系抽取方法进行研究。通用领域关系抽取研究主要集中在单句关系抽取上,较少研究文档级关系抽取问题。针对文档级关系抽取中关系描述跨句的问题,本文先提出一个基于分段式卷积神经网络的有监督学习模型。该模型对句内和跨句的关系进行统一学习,采用注意力机制与领域专业知识提高性能,不依赖于句法标注或特征工程。我们在CDR公开数据集上进行了实验,结果表明方法能够有效抽取跨句实体关系。在此基础上,针对单示例表示的文档级关系抽取样例缺失问题,本文提出了一种基于循环神经网络的多示例弱监督模型。该模型首先以分段式有监督深度卷积神经网络为基础来学习单示例表示,然后采用多示例学习方法学习多个示例的整体表示。在公开数据集的实验结果表明,多示例弱监督方法能够克服有监督模型仅能分析最短文本片段的不足,提高了医学文档中实体关系抽取的性能。最后,本文对基于医学知识图谱的药品合用关系进行研究。在上述研究的基础上,本文以分析药品合用关系为目标,首先提出一个面向诊疗的医学知识图谱框架,然后在该框架下应用知识抽取方法填充知识图谱,最后基于知识图谱进行药物合用关系分析。其中,针对关系抽取语句中缺失头实体的问题,本文提出了基于循环神经网络的头实体缺省句关系抽取方法,避免了传统二元关系方法需要同时确定两个待分类实体的位置的问题。实验结果表明,本文方法相比基准方法能更有效的抽取在头实体缺省情况下的实体关系。