论文部分内容阅读
目的:弥漫大B细胞淋巴瘤(DLBCL)是非霍奇金淋巴瘤中最常见的亚型,目前R-CHOP(利妥昔单抗+环磷酰胺、阿霉素、长春新碱和强的松)方案作为DLBCL的化疗首选,大部分患者可以达到完全缓解。但仍有部分患者在治疗中病情进展或缓解后早期复发(缓解期小于一年),且复发后一线标准治疗的反应率较低,反应连续作用时间较短,最终转变为难治性DLBCL,成为DLBCL主要死亡原因。针对这一问题,本研究欲构建DLBCL患者疾病进展阶段的多分类预测模型,以达到辅助临床工作者诊断疾病进展阶段及在后期巩固治疗中合理选择治疗方案的目的。方法:1.模拟研究:使用SOMTE、Borderline-SMOTE、ADASYN三种类别平衡方法分别平衡5个不平衡率各异的公共数据库后,使用BP神经网络、支持向量机、随机森林3种机器学习方法及各自的Adaboost集成共6种算法构建直接多分类模型,ROC曲线下面积、F值、G-means等指标多适用于二分类问题,故选取分类准确率作为直接多分类的评价指标。采用层次分类法构建间接多分类模型,将上述6种算法作为备选基分类器,应用分级度量方法,以每层分类器的准确率、灵敏度、F值、ROC曲线下面积(AUC)和G-means值作为评价指标,筛选出各层级的最优模型后,应用层次度量法计算出层次式准确率,与直接多分类模型的分类准确率进行对比。2.DLBCL实例应用:收集DLBCL患者的一般情况、病理信息、PET-CT/CT影像数据与治疗方案等100余个特征,应用基于单特征相关性排序法、递归特征消除法和随机森林3种特征选择方法筛选出不同的特征子集后,选取模拟研究中性能最优的类别平衡方法与多分类方法构建DLBCL患者疾病进展阶段多分类预测模型,比较3种特征选择方法筛选出的特征子集对多分类模型性能的影响。结果:1.模拟研究:(1)balance数据库:直接分类法中,支持向量机应用Borderline-SMOTE进行类别平衡的性能最优(准确率=0.7440);支持向量机Adaboost集成应用ADASYN进行类别平衡的性能最优(准确率=0.7909);BP神经网络应用ADASYN进行类别平衡的性能最优(准确率=0.7740);BP神经网络Adaboost集成应用ADASYN进行类别平衡的性能最优(准确率=0.7895);随机森林应用ADASYN进行类别平衡的性能最优(准确率=0.7572);随机森林Adaboost集成应用Borderline-SMOTE算法进行类别平衡的性能最优(准确率=0.7595)。由上述可知balance数据库的直接分类法中4种模型的最优建模应用了ADASYN算法,2种应用了Borderline-SMOTE算法,可得ADASYN算法类别平衡性能更优,所有模型中采用ADASYN算法的支持向量机Adaboost集成性能最优(准确率=0.7909)。层次分类法的第一层分类中,与上述直接分类法的分析过程相同,比较并选出各个基分类器中性能最优的类别平衡算法为Borderline-SMOTE算法,所有模型中采用Borderline-SMOTE算法的BP神经网络Adaboost集成性能最优(准确率=0.8788,灵敏度=0.8323,F值=0.8620,AUC=0.8749,G-means=0.8739);第二层分类中,比较并选出各个基分类器中性能最优的类别平衡算法为ADASYN算法,所有模型中采用ADASYN算法的随机森林性能最优(准确率=0.8500,灵敏度=0.8265,F值=0.8572,AUC=0.8523,G-means=0.8519);将上述两个层级中的最优基分类器结合后的层次式准确率=0.8316,高于直接分类法的最高准确率0.7909。综上所述,应用balance数据库建模,ADASYN算法和层次分类法性能最优。(2)new-thyroid数据库:同上述过程,Borderline-SMOTE算法和层次分类法性能最优。(3)hayes-roth数据库:Borderline-SMOTE算法和层次分类法性能最优。(4)contracepive数据库:ADASYN算法性能最优,其中层次分类法的层次式准确率=0.8183,直接分类法最高准确率=0.8180,前者性能略优于后者。(5)wine数据库:Borderline-SMOTE算法性能最优,层次分类法的层次式准确率=0.8186,直接分类法最高准确率=0.8172,前者性能略优于后者。2.DLBCL实例应用:采用基于单特征相关性排序法、递归特征消除法和随机森林三种特征选择方法分别筛选出10种、11种、19种特征变量,构建了3个特征子集,采用上述模拟研究中选择的最优类别平衡方法Borderline-SMOTE算法分别对其进行类别平衡,并采用层次分类法构建DLBCL疾病进展阶段多分类预测模型,其中采用基于单特征相关性排序法筛选的特征子集构建的层次分类模型的层次式准确率=0.8864;采用递归特征消除法筛选的特征子集构建的层次分类模型的层次式准确率=0.8479;采用随机森林选择的特征子集构建的层次分类模型的层次式准确率=0.9263。结论:1.经模拟研究得出Borderline-SMOTE算法和ADASYN算法的类别平衡性能均优于SMOTE算法,二者性能相差不大,本研究中Borderline-SMOTE算法略优于ADASYN算法;层次分类法整体分类性能优于直接分类法。最终选择Borderline-SMOTE类别平衡方法和层次分类法构建DLBCL疾病进展阶段多分类预测模型。2.使用基于单特征相关性排序法、递归特征消除法和随机森林三种方法对DLBCL患者的病例信息数据库进行特征选择,其中年龄、KPS得分、疾病等级、是否GCB、HBVDNA为3种方法筛选出的共同特征。本研究中采用随机森林筛选的特征子集所构建的DLBCL疾病进展阶段多分类预测模型性能最优。