论文部分内容阅读
一直以来,在内科疾病的诊断过程中,医生的临床经验起着决定性的作用。经验的积累需要大量的临床实践以及海量的文献阅读,其中就包括对以往病例的归纳总结。同时,为了提高临床医生诊断的准确率和效率,出现了越来越多的辅助诊断方法,其中就包括一些计算机方法。近年来,随着计算机软件技术的发展,大数据等方法已经开始在医疗领域有所运用。采用机器学习的方法可以把以往的大量病例进行分析,归纳出一些患病规律,一方面可以提高医生阅读的效率,降低医生劳动的强度;另一方面可以对医生的临床诊断起到辅助作用,提高诊断效率,还可以缓解漏诊、误诊等问题。算法的应用有着重要的意义。本论文首先介绍了相关的医学与机器学习背景。然后把从临床收集到的371例因咳嗽入院治疗并得到最终诊断的病例进行数据预处理。主要包括采用Python语言读取病例文本文件,抽取病例的特征值和诊断结果,对其进行数学化处理。在算法训练过程中,将来自第一个医院的269例患者病历作为训练集,来自第二个医院的102例患者病历作为测试集。在训练集中训练Logistic回归、支持向量机、随机森林3种机器学习算法,并在测试集中计算算法相应的准确率、精确度、召回率、F1值等来比较算法的性能。最后通过这些指标比较各模型对疾病的诊断效果。在对四种机器学习算法采用以上的标准进行比较之后,探讨实际应用中的医学诊断实验评价标准,将两种标准进行比较。最终给出算法的实际临床应用价值。本论文主要研究对象是因咳嗽而入院进行治疗的病例,所研究的问题本质上是机器学习的多分类问题。本文所提及的理论、模型及算法具有一定的推广性,对病例的读取以及其它内科疾病的辅助诊断具有一定的指导和借鉴意义。