论文部分内容阅读
电子病历记录了患者在检查与治疗疾病过程中产生的重要临床数据,包含大量的医疗知识,通过挖掘和利用这些知识对于医疗健康事业的发展有重要作用。但是,目前大部分电子病历都以非结构化的文本形式存储,一是难以从这些杂乱、冗余及高复杂的文本数据直接获取规范并有价值的数据;二是无法直接应用人工智能算法去进一步挖掘分析。因此,电子病历的结构化问题成为人工智能时代研究的热点,在医疗领域中最重要的工作主要集中在实体识别和关系抽取等方面。通过抽取电子病历中临床诊疗信息,进而能够利用人工智能算法为医生临床诊断提供辅助参考,同时为患者提供个性化诊疗方案。
本文工作主要基于对上海市某大型三甲医院的真实乳腺电子病历临床数据的分析,设计并实现了一个基于深度学习的乳腺电子病历辅助诊断预测系统。主要研究内容如下:
1)提出了一种乳腺电子病历的实体和关系联合抽取方法
该方法首先采用Doc2Vec对文本进行向量化,利用k-means聚类算法对电子病历数据进行归并,参照i2b2(2010)提出的电子病历的实体和关系类别标注规范,从每个簇中筛选数据作为训练集进行标注。然后,采用深度学习中的Bi-LSTM和CNN算法构建了实体识别与关系抽取的联合模型,利用该联合模型对乳腺电子病历进行实体识别与关系抽取。该模型的特点是加入attention机制,使其能更加有效地提取电子病历中较长语句的的语义特征;加入神经网络编码层,实现模型参数共享和联合学习,不仅完成了对大量数据自动命名实体识别任务,而且同时还完成了关系抽取任务,弥补分别进行这两个任务时产生的错误传播和缺少依赖的缺陷,提高了结果的准确率。
2)提出了一种基于树搜索的层次多标签乳腺疾病分类预测方法
由于乳腺疾病患者的患病情况较为复杂,同一位患者可能会患有多种相关疾病,每个大类疾病分类下可能会存在很多的小类疾病,而小类疾病分类下又可能存在更细粒度的疾病类别。传统的分类问题(如二分类和多标签分类)往往会忽略各标签之间存在的依赖关系并且分类算法输出数目呈指数级,占用空间过大,造成预测性能不佳。因此本文提出了一种基于树搜索的层次多标签乳腺疾病分类方法,利用树结构可以充分考虑到标签集之间的层次结构的依赖关系,规范化诊断结论。按诊断结果之间的层次关系构建了层次多标签树,通过对标签树的路径搜索,最终实现乳腺疾病的多标签分类 。
3)设计并实现了一个基于深度学习的乳腺电子病历辅助诊断预测系统
该系统可以根据输入的患者电子病历文本自动识别文本中的医疗实体,抽取相应关系,最终利用基于树搜索的层次多标签乳腺疾病分类预测方法对患者所患疾病的风险性进行预测,起到了辅助医生诊断效果。
本文工作主要基于对上海市某大型三甲医院的真实乳腺电子病历临床数据的分析,设计并实现了一个基于深度学习的乳腺电子病历辅助诊断预测系统。主要研究内容如下:
1)提出了一种乳腺电子病历的实体和关系联合抽取方法
该方法首先采用Doc2Vec对文本进行向量化,利用k-means聚类算法对电子病历数据进行归并,参照i2b2(2010)提出的电子病历的实体和关系类别标注规范,从每个簇中筛选数据作为训练集进行标注。然后,采用深度学习中的Bi-LSTM和CNN算法构建了实体识别与关系抽取的联合模型,利用该联合模型对乳腺电子病历进行实体识别与关系抽取。该模型的特点是加入attention机制,使其能更加有效地提取电子病历中较长语句的的语义特征;加入神经网络编码层,实现模型参数共享和联合学习,不仅完成了对大量数据自动命名实体识别任务,而且同时还完成了关系抽取任务,弥补分别进行这两个任务时产生的错误传播和缺少依赖的缺陷,提高了结果的准确率。
2)提出了一种基于树搜索的层次多标签乳腺疾病分类预测方法
由于乳腺疾病患者的患病情况较为复杂,同一位患者可能会患有多种相关疾病,每个大类疾病分类下可能会存在很多的小类疾病,而小类疾病分类下又可能存在更细粒度的疾病类别。传统的分类问题(如二分类和多标签分类)往往会忽略各标签之间存在的依赖关系并且分类算法输出数目呈指数级,占用空间过大,造成预测性能不佳。因此本文提出了一种基于树搜索的层次多标签乳腺疾病分类方法,利用树结构可以充分考虑到标签集之间的层次结构的依赖关系,规范化诊断结论。按诊断结果之间的层次关系构建了层次多标签树,通过对标签树的路径搜索,最终实现乳腺疾病的多标签分类 。
3)设计并实现了一个基于深度学习的乳腺电子病历辅助诊断预测系统
该系统可以根据输入的患者电子病历文本自动识别文本中的医疗实体,抽取相应关系,最终利用基于树搜索的层次多标签乳腺疾病分类预测方法对患者所患疾病的风险性进行预测,起到了辅助医生诊断效果。