论文部分内容阅读
重症监护室(the Intensive Care Unit,ICU)集中了医院最重要的资源,旨在为危重病人提供全面、可靠的救治。对ICU病人进行死亡率预测,有助于医生制定诊治计划,合理配置救治资源,进而降低ICU病房病人的死亡率和减少病患的医疗费用。然而,现有的死亡预测模型准确率不高,预测模型多有不足。由于ICU病房的特殊性,ICU数据存在高维,不平衡分布和数据缺失等问题,这些问题给数据的预处理带来很多困难。传统的机器学习预测模型多是从模型组合的角度考虑进行模型设计,较少针对数据特性设计处理方法;另外,对模型的设计中较少有参数优化的报道,而这是影响模型性能的重要因素。针对上述问题和研究不足,本文设计了一系列的分析方法和工具,重点关注了对高维、不平衡数据的预处理和参数的优化问题。本文提出了改进的代价敏感PCA(Modified Cost-Sensitive Principal Component Analysis,MCSPCA)算法,以改进代价敏感主成分分析方法(Cost-Sensitive Principal Component Analysis,CSPCA)的性能,在代价系数调整时采用不同的系数,最终选择使用正类系数C_i~=1,负类系数C_i~=N_+/N_-,通过这种正负类样本代价系数的调整再计算降维后的样本矩阵,在特征提取阶段即可实现对样本的高维、不平衡问题的改善;对参数优化问题,本文设计了混沌粒子群(Chaos Particle Swarm Optimization,CPSO)优化算法,从粒子混沌序列初始化和早熟收敛判断处理机制这两个角度考量提升算法的性能,并对混沌序列初始化和早熟收敛机制进行改进,以增加种群粒子在解空间分布的均匀性,提高种群陷入早熟收敛后的跳出能力。为了获得最佳的预测模型,本文研究考察了不同的预处理方法,参数寻优方法和不同的分类器,并在一个真实基准数据集(Physionet Challenge 2012数据集)中评估了它们的AUC性能。最后的测试结果表明,该算法改善了常见机器学习方法的性能。我们提出的MCSPCA+CPSO+SVM模型达到最佳的AUC性能值0.7718和最少的总运行时间814s,从而提高了ICU预测死亡率模型的预测效果。