论文部分内容阅读
序贯诊疗是慢性疾病临床诊断与治疗主要方法,包括多阶段的临床诊疗决策过程,是一种复杂的决策优化问题。鉴于中医处方的复杂性和个体性,针对慢性疾病的中医诊疗过程包含迭代式的四诊信息采集、疾病状态或诊断判别和处方决策等主要环节,更是一种典型的复杂序贯诊疗过程。因此,进行有效中医序贯诊疗方案的发现和智能应用是中医临床人工智能的核心问题,但由于该问题的计算复杂性和对完整闭环数据的要求,以往中医临床数据挖掘研究很少涉及该方面的研究。随着高质量中医临床数据的积累和近年来强化学习方法(特别是深度强化学习)的快速发展,开展基于强化学习的中医序贯诊疗方案优化成为可能。本文提出了一种基于深度强化学习方法的中医序贯诊疗方案优化模型(AlphaPrescriber),该模型能够实现根据观察得到的患者症状体征信息,进行处方推荐,动态形成优化的中医序贯诊疗方案,为中医个体化处方推荐的人工智能应用提供基础。主要研究工作包括以下几个方面:首先,结合中医诊疗过程中缺乏自然存在的强化学习“环境”问题,提出HH深度中医治疗人工环境模型(HU HE Deep TCM Treatment Artificial Environment——TAE),该模型能够基于当前某种疾病的数据,构造强化学习的“环境”,从而实现根据患者用药前的症状观察和使用药物,推断下一次患者症状观察的功能。基于冠心病数据的评价指标数值如下:准确度98.4%,精确度97.0%,召回率96.5%,F1值96.8%。基于糖尿病数据的评价指标数值如下:准确度87.5%,精确度78.49%,召回率 78.5%,F1 值 73.3%。其次,结合TAE,研制了中医序贯诊疗方案优化模型(AlphaPrescriber),该模型将深度强化学习算法运用于中医序贯诊疗方案优化,实现基于观察到的患者症状信息,进行智能的处方推荐。基于冠心病测试集,中医序贯诊疗优化方案模型的平均折扣奖励值是11.38,通过传统Q学习算法得出的是9.15,而临床医生给出的处方的平均奖励值是7.16。基于糖尿病测试集,中医序贯诊疗优化方案模型的平均折扣奖励值是11.50,通过传统Q学习算法得出的是7.06,而临床医生给出的处方的平均奖励值是4.42。相关实验结果发现,中医治疗人工环境的评价指标较高,基于深度强化学习的中医序贯诊疗方案模型对患者产生的估计疗效高于传统强化学习和医生提出的方案疗效。