论文部分内容阅读
电子病历以电子化的方式记录了患者诊断治疗的全过程,是医疗信息系统的核心。乳腺疾病是一种常见的女性多发疾病,其中乳腺癌已成为女性主要致死原因之一,每年约有170万新发乳腺癌患者,病死率达33.5%。乳腺疾病患者的电子病历记录了诊疗过程中有关病史、检查、手术等各种医疗信息,分析研究这些数据,对提高乳腺疾病早期筛查率、诊断准确率和治愈率有着重要意义。
但是,由于实际临床电子病历中存在大量的非结构化的自然语言表述,很难直接进行分析利用,因此电子病历结构化是目前研究的热点问题。命名实体识别是实现电子病历结构化的首要步骤,通过实体识别技术抽取乳腺疾病电子病历文本中相关医学概念实体,可以有效利用文本中蕴含的乳腺临床医疗知识,为后续医疗知识图谱构建和医疗辅助系统开发等奠定基础。
目前,虽然深度神经网络技术在命名实体识别的应用中取得了一定成果,但要获得较好的识别效果需建立在大量已标注数据训练的基础上。由于电子病历属于特定专业领域文本数据,其语料标注不仅需要耗费大量时间,还需要耗费具有较强医疗专业知识的人力,获得大量已标注的临床医疗数据存在困难。同时,由于神经网络自身结构特性和数据分布问题,模型识别性能存在上限,不能满足临床医疗应用中对模型输出结果的高准确性要求。
针对上述问题,本文研究了乳腺疾病电子病历命名实体识别方法,主要研究内容包括以下三方面:
1)乳腺临床电子病历数据分析与预处理
对乳腺临床电子病历数据从病历内容、结构特征、语言特征和语义特征等进行分析。根据分析结果完成对电子病历数据的清洗与整合;并完成乳腺临床实体类别定义和实体标注工作;采用Word2vector完成文本向量化处理。
2)提出了一种基于多标准主动学习的乳腺电子病历实体识别方法
针对医疗文本命名实体识别数据标注专业性要求高、标注成本大的问题,该方法采用主动学习框架减少对训练语料的需求。采用更轻量级的GRU结构代替常用的LSTM构建了BiGRU-CRF模型进行实体识别,并运用增量式训练模式加快主动学习过程中迭代训练的速度;从标注数据量、句子标注成本、数据采样均衡性等三个方面进行考虑,提出了一种综合性的主动学习选择策略,在聚类的基础上基于不确定性采样和句子标注成本度量进行样本选择,并提出了更适用于神经网络实体识别模型的不确定性计算方式和句子标注成本度量规则。该综合性策略使选择的样本集具有数据代表性高、标注性价比高、数据分布均衡等特点,提高了未标注数据的有效利用率。在真实医院的临床乳腺疾病电子病历文本上进行实验,结果表明该主动学习方法在最好的情况下,仅用随机选择方法的约39.52%的数据量就可以达到相同的准确率。
3)提出了一种基于多智能体强化学习的乳腺病历实体识别标注增强方法
针对神经网络模型存在性能上限,不能满足临床医疗应用中对模型输出结果的高准确性要求的问题,提出了多智能体强化学习方法对错误标签进行修正,进一步提高实体识别性能。为了适应多个序列标注协同预测的情况,该方法利用部分可观测马尔科夫决策过程建立了多智能体强化学习模型。模型学习采用适用于高维动作空间的深度确定性策略梯度算法,使得在序列标签排列组合而产生指数级动作空间的情况下,仍然能够寻找到最优价值函数进行收敛,并对价值网络和策略网络都采用双网络形式,使网络快速向优化目标靠拢。在真实医院的临床乳腺疾病电子病历文本上进行实验,结果表明该方法能够进一步提升实体识别的性能,在主动学习方法最终训练所得模型的基础上又提高了4.45%的准确率。
但是,由于实际临床电子病历中存在大量的非结构化的自然语言表述,很难直接进行分析利用,因此电子病历结构化是目前研究的热点问题。命名实体识别是实现电子病历结构化的首要步骤,通过实体识别技术抽取乳腺疾病电子病历文本中相关医学概念实体,可以有效利用文本中蕴含的乳腺临床医疗知识,为后续医疗知识图谱构建和医疗辅助系统开发等奠定基础。
目前,虽然深度神经网络技术在命名实体识别的应用中取得了一定成果,但要获得较好的识别效果需建立在大量已标注数据训练的基础上。由于电子病历属于特定专业领域文本数据,其语料标注不仅需要耗费大量时间,还需要耗费具有较强医疗专业知识的人力,获得大量已标注的临床医疗数据存在困难。同时,由于神经网络自身结构特性和数据分布问题,模型识别性能存在上限,不能满足临床医疗应用中对模型输出结果的高准确性要求。
针对上述问题,本文研究了乳腺疾病电子病历命名实体识别方法,主要研究内容包括以下三方面:
1)乳腺临床电子病历数据分析与预处理
对乳腺临床电子病历数据从病历内容、结构特征、语言特征和语义特征等进行分析。根据分析结果完成对电子病历数据的清洗与整合;并完成乳腺临床实体类别定义和实体标注工作;采用Word2vector完成文本向量化处理。
2)提出了一种基于多标准主动学习的乳腺电子病历实体识别方法
针对医疗文本命名实体识别数据标注专业性要求高、标注成本大的问题,该方法采用主动学习框架减少对训练语料的需求。采用更轻量级的GRU结构代替常用的LSTM构建了BiGRU-CRF模型进行实体识别,并运用增量式训练模式加快主动学习过程中迭代训练的速度;从标注数据量、句子标注成本、数据采样均衡性等三个方面进行考虑,提出了一种综合性的主动学习选择策略,在聚类的基础上基于不确定性采样和句子标注成本度量进行样本选择,并提出了更适用于神经网络实体识别模型的不确定性计算方式和句子标注成本度量规则。该综合性策略使选择的样本集具有数据代表性高、标注性价比高、数据分布均衡等特点,提高了未标注数据的有效利用率。在真实医院的临床乳腺疾病电子病历文本上进行实验,结果表明该主动学习方法在最好的情况下,仅用随机选择方法的约39.52%的数据量就可以达到相同的准确率。
3)提出了一种基于多智能体强化学习的乳腺病历实体识别标注增强方法
针对神经网络模型存在性能上限,不能满足临床医疗应用中对模型输出结果的高准确性要求的问题,提出了多智能体强化学习方法对错误标签进行修正,进一步提高实体识别性能。为了适应多个序列标注协同预测的情况,该方法利用部分可观测马尔科夫决策过程建立了多智能体强化学习模型。模型学习采用适用于高维动作空间的深度确定性策略梯度算法,使得在序列标签排列组合而产生指数级动作空间的情况下,仍然能够寻找到最优价值函数进行收敛,并对价值网络和策略网络都采用双网络形式,使网络快速向优化目标靠拢。在真实医院的临床乳腺疾病电子病历文本上进行实验,结果表明该方法能够进一步提升实体识别的性能,在主动学习方法最终训练所得模型的基础上又提高了4.45%的准确率。