【摘 要】
:
妊娠期糖尿病是导致胎儿发育不良和产妇妊娠困难的危险因素之一,因此在早期能够实现对妊娠期糖尿病的发病预测,可以辅助医生诊断。本文采用集成模型算法构建妊娠期糖尿病预测模型,并对级联分类原理在疾病预测模型中的不足进行完善和改进,以及对模型进行个性化解释,有助于建立个性化的疾病预防管理方案。为了构建性能更优的基于集成学习算法的妊娠期糖尿病预测模型,本文做了以下的研究工作:(1)将样本数据进行清洗和数据描述
论文部分内容阅读
妊娠期糖尿病是导致胎儿发育不良和产妇妊娠困难的危险因素之一,因此在早期能够实现对妊娠期糖尿病的发病预测,可以辅助医生诊断。本文采用集成模型算法构建妊娠期糖尿病预测模型,并对级联分类原理在疾病预测模型中的不足进行完善和改进,以及对模型进行个性化解释,有助于建立个性化的疾病预防管理方案。为了构建性能更优的基于集成学习算法的妊娠期糖尿病预测模型,本文做了以下的研究工作:(1)将样本数据进行清洗和数据描述,并根据变量的IV值进行筛选,在筛选过程中进行离散值替换和连续变量等距分割,并依照IV值0.1~0.5作为阈值,筛选出代入模型的九个变量;(2)在提升模型准确性方面,将样本数据按照7:3的比例分割出训练集和测试集,并采用xgboost,lightgbm和catboost三种集成算法构建妊娠期糖尿病预测模型,并选择F1分数作为模型评价指标,应用网格调参与交叉验证方法进行参数调优,并进行模型比较;进一步应用级联原理提升F1分数预测准确率,通过研究样本覆盖度和分位数准确率的关系,确定级联结构阈值为70%,并对三种级联结构进行比较,最终根据准确率选取以catboost作为主模型的级联结构;(3)在模型解释方面,采用shap框架对catboost模型从样本的粒度进行解释,针对每一个样本给出特征的作用大小和特征的作用方向,并采用shapvalue作为评估值进行计算,shap框架的灵活性支持每个样本的特征分解,除此之外还对单个特征在全样本下的作用方向和作用大小进行分析,并根据全样本的shap-value得出特征重要性,以及该特征对模型结果的作用方向。
其他文献
<正>2008年6月18日晚,江苏省淮海剧团在梅兰芳大剧院,参加由文化部主办、中国艺术研究院、中国非物质文化遗产保护中心承办的"2008中国非物质文化遗产展演",演出了淮海戏《皮
随着我国经济的高速发展,农村人口流向城市、中西部人口流向东部已成为我国改革开放以来一道靓丽景观。伴随着人口流动的加速,流动人口的犯罪问题也凸显出来,并成为我国控制
介绍了采乃AT89C52单片机设计的电子计重秤的工作原理及硬软件设计方法,这种计重秤具有良好的性能价格比推广价值。
现行所有型号加油胶管皆是聚硫橡胶材料经过硫化工艺生产出来,橡胶中的硫化剂、炭黑、橡胶本身和其他促进剂和配料均含有硫元素。在加油过程中,部分硫离子会溶入油中,导致油
选取湘西北地区页岩开展水蒸气吸附实验,分析影响水蒸气吸附的主控因素,并在此基础上,开展不同含水条件下的页岩甲烷吸附实验,分析水分对甲烷吸附的影响,评价不同含水条件下
高氟水广泛分布于全球范围内,中国也是高氟水受害较为严重的国家之一,长期饮用高氟水对人体健康危害很大,在水资源日益短缺的今天,对高氟劣质水的处理就显得尤为重要。为探究
锂离子电池具有大的能量密度和能量增长潜力,受到PHEV市场的关注和重视。文章从安全性、性价比、能量密度和使用寿命等方面,介绍了适用于PHEV的几种锂离子电池的研究与开发现
《国家发展改革委关于放开部分服务价格意见的通知》(2014)放开了审计价格,但鲜有研究关注该政策的效果。以2010—2017年我国上市公司为样本,探究审计价格放开对审计收费的影
甘肃河西地区经过60多年的防沙治沙,在绿洲边缘形成了一条积沙带。民勤绿洲边缘积沙带高4.8~18.6 m,宽30.4~461.4 m。为什么有的地段积沙带高大,而有的地段积沙带相对矮小,或
动物肠道中存在着由许多微生物组成的复杂多样的微生态区系,该区系对宿主的生长和健康意义重大。对猪来说.肠道中微生态菌群的组成及变化直接影响着猪的健康和生理功能,猪肠道内