论文部分内容阅读
互联网的快速发展加快了医院信息系统建设的步伐。电子病历作为医疗信息化系统建设的一部分,其数量与日俱增。电子病历包含了大量与患者健康状况息息相关的医疗信息,是对患者在医疗机构就诊时的医疗事件陈述。如何通过技术手段挖掘电子病历文本中包含的一些关键信息,应用于临床决策支持、辅助诊疗等方面具有重要的研究价值。随着信息技术的发展,基于自然语言处理的医疗信息结构化成为学术界的研究热点。时间表达式和医疗事件作为了解患者疾病发生发展的重要依据,对医生和研究者认识动态的医学现象具有重要意义。由于目前已有研究主要面向于英文电子病历,中文电子病历的语料库较少,鉴于此,本文进行了以下几项研究:(1)设计了中文电子病历时间表达式和医疗事件标注规则。本文参考英文I2B2评测中关于英文电子病历中所给出的定义和相关标注规则,结合中文电子病历自身的特点,通过对中文电子病历的分析和研究,设计了中文电子病历时间表达式和医疗事件标注规则,并构建了1500份中文电子病历时间表达式标注语料库和2000份中文电子病历医疗事件标注语料库。(2)中文电子病历中时间表达式识别研究。提出了一种融合卷积神经网络(Convolutional Neural Networks,CNN)和双向长短时记忆神经网络(Bi-directional Long Short-term Memory Networks,BiLSTM)的中文电子病历时间表达式自动识别方法。通过几种方法对比发现,融合CNN和BiLSTM的方法识别中文电子病历时间表达式的性能最高,整体识别的F1值达到了95.38%,同时在每个子类别的识别上也有较好的表现。(3)中文电子病历中医疗事件识别研究。本文提出了一种基于卷积注意力和多图神经网络的方法来对中文电子病历中的医疗事件进行识别。通过几种方法对比,得出我们提出的医疗事件识别模型有较好的性能,对医疗事件综合识别的F1值为92.21%,并且在医疗事件每个子类别的识别与现有的方法相比均有一定幅度的提升。