论文部分内容阅读
目的:本研究旨在确定合理的降维和变量筛选方法来选择合适的预测因子,利用现有的已接受肝穿刺活体组织检查术的乙肝患者的血清生化水平指标,建立无创慢性乙肝患者肝纤维化的预测模型,并实现模型的可视化,用以筛选需要进行肝穿确诊的人群,或者实现患者自检,提早筛查的功能,从而达到降低成本,增加经济效益,更好地支持临床决策和诊治的目的。方法:本研究的研究对象为2009年至2014年于中国医科大学附属盛京医院采集的共计1224例的全部肝病门诊患者,经过纳入和排除标准的筛选,867例乙肝患者纳入研究。采用频数及构成比来描述离散型变量的情况,中位数和上下四分位数来描述连续型变量的情况。随后将数据按照7:3分为两组,分别用于模型构建和外部测试,建模组数据经过LASSO(Least absolute shrinkage and selection operator)降维和随机森林两种变量筛选方法综合筛选模型的预测因子,确定候选变量。筛选后的变量经过决策树分箱后纳入到模型中,利用Logistic回归拟合模型,得出各预测变量指标模型系数。利用校正曲线和受试者工作曲线及曲线下面积进行模型预测能力的评定,利用决策曲线判对模型的最终收益进行评定,最终实现模型的可视化。结果:经过基本情况描述单变量分析,保留21个预测因子。867例患者按照7:3的比例分成建模组和验证组,两组间差异无统计学意义,均衡可比。随后对建模组内数据进行降维和变量筛选,其中LASSO降维分析排除6个变量,而随机森林分析剔除7个变量,综合二者变量选择排除10个预测因子,保留TT、APOB、DD、CHOL、AST、ALPK、APTT、TBA、GGT、PLT、AFP这11个随后用于模型构建的预测因子。单变量决策树分箱将这11个变量离散化,其中4个转化成二分类指标,5个转化成三分类指标,2个转化成四分类指标。分箱后的变量作为解释变量,二分类的肝穿结局变量作为因变量,建立Logistic回归,最终7个变量纳入模型中,其中APOB和PLT可以解释为肝纤维化的保护因素,而其他的5个变量AFP、GGT、TBA、APTT、TT可以认为是肝纤维化的危险因素。对模型单变量拟合的检验发现,模型整体拟合良好,没有变量出现过度拟合状况。另外,建模组和校正组校正曲线显示预测与实际情况贴合紧密,预测符合实际。而在受试者工作曲线中,建模组曲线下面积为0.834(0.802-0.862),验证组曲线下面积为0.818(0.765-0.863),两组面积均超过0.8,模型预测准确度高。而决策曲线结果显示模型收益高于现有的几个简单纤维化诊断模型。结论:本研究中LASSO降维和随机森林联合筛选11个候选变量,决策树分箱将他们离散化,而最终模型提示载脂蛋白B(APOB)和血小板计数(PLT)是纤维化的保护因素,γ-谷氨酸转肽酶(GGT)、血清总胆汁酸(TBA)、甲胎蛋白(AFP)、活化部分凝血酶时间(APTT)和凝血酶凝结时间(TT)是纤维化的危险因素。模型整体表现优异,ROC曲线下面积分别是0.834和0.818,准确度和综合效益均高于一般模型,转化后的诺谟图更加直观和快捷,值得广泛推广,同时也可以给其他的纤维化研究提供依据。