基于高维不平衡ICU数据的死亡率预测研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:gnbsr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
重症监护室(the Intensive Care Unit,ICU)集中了医院最重要的资源,旨在为危重病人提供全面、可靠的救治。对ICU病人进行死亡率预测,有助于医生制定诊治计划,合理配置救治资源,进而降低ICU病房病人的死亡率和减少病患的医疗费用。然而,现有的死亡预测模型准确率不高,预测模型多有不足。由于ICU病房的特殊性,ICU数据存在高维,不平衡分布和数据缺失等问题,这些问题给数据的预处理带来很多困难。传统的机器学习预测模型多是从模型组合的角度考虑进行模型设计,较少针对数据特性设计处理方法;另外,对模型的设计中较少有参数优化的报道,而这是影响模型性能的重要因素。针对上述问题和研究不足,本文设计了一系列的分析方法和工具,重点关注了对高维、不平衡数据的预处理和参数的优化问题。本文提出了改进的代价敏感PCA(Modified Cost-Sensitive Principal Component Analysis,MCSPCA)算法,以改进代价敏感主成分分析方法(Cost-Sensitive Principal Component Analysis,CSPCA)的性能,在代价系数调整时采用不同的系数,最终选择使用正类系数C_i~=1,负类系数C_i~=N_+/N_-,通过这种正负类样本代价系数的调整再计算降维后的样本矩阵,在特征提取阶段即可实现对样本的高维、不平衡问题的改善;对参数优化问题,本文设计了混沌粒子群(Chaos Particle Swarm Optimization,CPSO)优化算法,从粒子混沌序列初始化和早熟收敛判断处理机制这两个角度考量提升算法的性能,并对混沌序列初始化和早熟收敛机制进行改进,以增加种群粒子在解空间分布的均匀性,提高种群陷入早熟收敛后的跳出能力。为了获得最佳的预测模型,本文研究考察了不同的预处理方法,参数寻优方法和不同的分类器,并在一个真实基准数据集(Physionet Challenge 2012数据集)中评估了它们的AUC性能。最后的测试结果表明,该算法改善了常见机器学习方法的性能。我们提出的MCSPCA+CPSO+SVM模型达到最佳的AUC性能值0.7718和最少的总运行时间814s,从而提高了ICU预测死亡率模型的预测效果。
其他文献
公允价值与传统的历史成本计量属性截然不同,掀起了一场会计计量革命,如今已成为会计理论界和实务界的热议话题。随着信息时代以及市场经济环境持续不断的发展和变革,公允价
压缩感知理论(Compressed Sensing,CS)是一种新型的信号处理方法,它的基本原理是对数据进行压缩采样,然后利用压缩采样得到的数据重构原始信号。双线性广义近似消息传递算法(
随着半导体产业的发展,依照摩尔定律,集成电路的器件尺寸越来越小,密度也越来越高。由于电源电压并没有随着器件的尺寸降低,造成严重的功耗问题。目前应用最为广泛成熟的Si基
结构助词“得”是最常用的词之一,在汉语中扮演着重要的角色。“得”经常用在谓语和补语之间,其基本结构形式是“谓语+得+补语”。“得”字结构在法语中没有对应的句法结构形
图像检索是图像理解领域的一个重要研究方向。随着海量图像的激增,人们对图像检索系统的要求也越来越高,仅仅基于内容的图像检索已无法满足人们的需要。基于语义的图像检索方
随着社会的进步,工业自动化水平的不断提高,远程监控技术也在迅速发展,许多学者将远程监控系统作为科研的主要对象。远程监控系统在生活中的应用也越来越广泛,目前,逐渐成为
随着物联网的兴起和无线网络的广泛部署,基于位置的服务的需求逐渐增加。室内定位技术受到研究人员广泛关注。接收信号强度经常被应用于基于指纹和基于测距的室内定位方法之
移动数据流量如同海啸一般冲击着目前的通信链路系统,为了更好地去容纳与管理这些移动数据,本文针对在5G中提出的超密集网络,结合用户请求内容与用户移动动信息提出了一种分
自上世纪70年代工业革命以来,随着工农产业的不断发展壮大,氨(NH3)和氮氧化物(NOx)的排放量呈现明显增加趋势。我国已经成为继欧美之后全球第三大氮沉降区。大气氮沉降会引起一系列的环境生态问题。因此,国内外学者纷纷将目光聚集到大气氮沉降问题研究上。凋落物作为生物与土壤间物质循环和能量流动的纽带,是森林生态系统的重要组成部分,其在维持森林水分平衡、群落结构及土壤肥力等方面有着重要的作用。本研究选择
评价快递的重要指标是寄达速度,快递包裹从收寄到送达客户手中,中间的分拣和运输都是关系到时限的重要环节。为抢回失去的市场份额,中国邮政集团公司正在进行快递包裹业务及