论文部分内容阅读
随着医疗领域相关技术的迅猛发展,人们对于医疗健康问题的关注日益增加。一方面,互联网上在线医疗健康网站越来越多,人们的就医问诊方式也越来越多。随着电子化医疗健康数据的暴增,医务人员用来记录患者信息和疾病诊断结果的方式已经从传统的纸质版病历转变为现在的电子版病历,科研人员正在寻求合适的方法来使用这些电子版的医疗健康数据。另一方面,电子病历属于非结构化数据,而且没有统一的标注语料和标注规范,结合其独特的文本特点和结构特点去构建医疗语料已经成为了医疗领域科研的难点。所以对于传统领域的实体识别和关系抽取的模型方法很难应用在电子病历中,这对医疗领域的自然语言处理任务带来了巨大的挑战。为了克服这些困难,知识图谱的构建及实现为医疗知识的存储和管理提供了一种合适的解决方案。本论文设计了一种基于深度学习的知识图谱的构建及实现,对医疗电子病历的文本进行命名实体识别和关系抽取,再使用图数据库存储医疗知识并构建知识图谱。论文的主要内容如下:(1)在医疗命名实体识别的方法中,本论文设计了BiLSTM-CRF模型用于提取特征,利用小样本标注数据集来训练实体识别模型,提取电子病历的语言特征和结构特征,再不断地扩增标注数据集,反复迭代不断地优化模型。其中双向长短时记忆神经网络模型解决了传统的循环神经网络模型的梯度消失问题,并且通过“遗忘门”、“输入门”和“输出门”的控制,解决了RNN模型的长期依赖问题。同时,通过CRF模型克服了基于有向图模型的最大熵马尔可夫模型和其他马尔可夫模型的基本限制。(2)针对实体之间关系抽取的特征选择问题,本论文设计了BiLSTM-Attention模型,将BiLSTM层后加入Attention层用于实体之间的关系分类。Attention层通过模型训练生成句子级的权重向量,模型测试时把Attention层的输入向量与权重向量相乘,把词级的特征向量转化为句子级的特征向量,由此来减少特征提取过程中的信息冗余和信息丢失的问题。(3)把抽取的医疗命名实体和实体之间的关系用属性图模型表示出来,再存储在图数据库中,图数据库使用非结构化的方式来存储关联关系复杂且关联深度大的数据,能够实现高效的关系查询。本论文旨在通过上述内容的研究,设计并实现了针对非结构化医疗文本的知识图谱的构建及实现,通过深度学习的方法提升医疗知识图谱的构建过程中的语义理解能力,从医疗命名实体识别、关系抽取和知识图谱的可视化等部分进行了详细的阐述。我们希望这些成果能够进一步应用到更广泛的医学任务上,由此来进一步推动自然语言处理中对知识的抽取和表示等工作在医学领域的研究和发展。