论文部分内容阅读
研究目的:回顾性分析本地人群孕早、中期唐氏筛查效能;基于唐氏筛查大数据建立筛查指标中位数本地化数据库,对唐氏筛查风险评估进行优化;分析将唐氏筛查风险转换成绝对风险对筛查风险评估方案进行优化的意义;利用机器学习法建立唐氏筛查风险评估模型,分析机器学习法在唐氏筛查中的应用价值。研究方法:收集2012年10月12日至2017年10月31日在吉林大学第一医院产前诊断中心行孕早期唐氏筛查的孕妇和2010年7月8日至2017年11月13日行孕中期唐氏筛查的孕妇。利用隔离胶采血管(黄色头)采集孕妇外周血血样(3~5ml),做好标记。室温放置30分钟后,离心(3000rpm,8min)收集血清于1.5ml离心管中,置-20℃冰箱中保存备用。孕早、中期血清学指标检测采用全自动时间分辨荧光免疫分析仪进行测定。胎儿NT值采用E8超声仪进行测量。在统计分析孕早期唐氏筛查效能以及绝对风险值筛查效能时,排除失访和信息不完整的孕妇,最终孕早、中期研究组孕妇人数分别为13703例和80577例进行分析。在建立本地化筛查指标中位数数据库时,排除其它可能影响筛查指标的因素,最终孕早、中期研究组孕妇人数分别为13521例和55686例进行分析。经排除双胎等因素,最终利用孕中期三联筛查的单胎妊娠孕妇为99851例数据库进行机器学习法建模。机器学习法建模实验平台为Windows 7 professional 64 bit、Python 3.6.3、pandas 0.20.3和scikit-learn 0.19.1。唐氏筛查绝对风险值取孕早/中期筛查风险值与年龄风险值的比值进行研究。孕早期筛查指标NT本地化过程中,NT中位数与孕周的拟合模型采用的是二次模型、对数二次模型和log-sigmoid模型;孕中期血清学筛查指标本地化过程中,指标中位数与孕周的拟合模型采用的是二次模型、对数二次模型、线性模型和对数线性模型,指标中位数倍数与体重的拟合模型采用的是二次模型、对数二次模型、对数线性模型和倒数线性模型。研究结果:1.孕早期筛查单胎妊娠孕妇14316例,平均年龄29.11±2.96岁,高龄孕妇199例(1.39%),体重58.95±9.83Kg;孕中期三联筛查单胎妊娠孕妇99851例,平均年龄27.76±4.03岁,高龄孕妇3743例(3.75%),体重60.68±10.28Kg。2.孕早期联合筛查孕妇中有效随访且胎儿信息完整的孕妇13703例,高风险230例,产前诊断唐氏综合征3例;低风险13473例,随访未发现假阴性病例;检出率为100%,假阳性率为1.66%,阳性预测值1.30%,阴性预测值100%。孕中期三联筛查孕妇中有效随访且胎儿信息完整的孕妇80577例,高风险4191例,产前诊断唐氏综合征20例;低风险76399例,随访发现11例假阴性;检出率为64.52%,假阳性率为5.18%,阳性预测值0.48%,阴性预测值99.99%。孕早期联合筛查检出率显著高于孕中期三联筛查、假阳性率显著低于孕中期三联筛查(p<0.01)。3.绝对风险(AR)切割值为3时,孕早期联合筛查和孕中期三联筛查检出率分别为100%和61.29%,假阳性率分别为1.77%和5.98%,与原始筛查结果比较无统计学差异(p>0.05);在孕早期联合筛查中,随着AR切割值的增大,筛查假阳性率显著降低。4.孕早期超声软指标NT中位数与CRL的三种拟合模型效果均较好,校正R~2值均大于0.95,以log-sigmoid模型拟合效果最优。与内置中位数进行配对T检验,差异极显著(t=7.353,p<0.001)。本地化后得到的NT Mo M值中位数在1.0±0.02范围内波动,是十分稳定和理想的。然而,NT Mo M和log10(NT Mo M)数据分布的两端明显偏离正态分布。5.孕中期血清学指标AFP中位数与GA的回归模型校正R~2都大于0.992,以对数二次模型最优;Freeβ-h CG中位数与GA的回归模型校正R~2都大于0.98,也以对数二次模型最优;u E3中位数与GA的回归模型校正R~2都大于0.995,以二次模型最优。AFP Mo M值中位数与体重的回归模型校正R~2均达到0.99以上,以倒数模型最优;Freeβ-h CGMo M值中位数与体重的回归模型以对数二次模型最优;u E3 Mo M值中位数与体重回归模型以倒数线性模型最优。本地化指标中位数和内置中位数配对t检验结果显示,各指标中位数组间比较,均有显著性差异(p<0.05)。6.NT中位数本地化后,利用Delta-NT进行唐氏筛查风险计算结果表明,切割值为1/270时,检出率为100%,假阳性率为3.6%;另外,利用本地化Delta-NT值进行唐氏筛查风险计算,切割值为1/262时筛查检出率已达100%,假阳性率仅为3.31%。7.利用本地化后的孕中期血清学指标进行唐氏筛查风险计算结果表明,切割值为1/270时,检出率为为80.65%,假阳性率为10.22%。检出率增加了19.45%,同时假阳性率也增加了3.05%。假阳性率一致时,本地化后筛查检出率为77.42%,比内置参数检出率同比增长16.13%。8.分类回归树(CART)算法结合自适应增强(Ada Boost)算法以及合成少数类过采样技术(SMOTE)-Tomek算法可将孕中期唐氏筛查检出率提高至95%以上。支持向量机算法(SVM)检出率较CART更高,SVM结合SMOTE-Tomek时,检出率为100%,且假阳性率仅为1.83%。研究结论:1.孕早期联合筛查和孕中期三联筛查均可有效避免唐氏儿出生,降低出生缺陷发生率;孕早期联合筛查效能高于孕中期三联筛查。2.绝对风险值可作为唐氏筛查风险评估的参考,可在一定程度上降低筛查假阳性率。3.唐氏筛查指标本地化后,可有效提高筛查检出率和降低假阳性率;Mo M法不适用于NT本地化后的标化。4.机器学习法应用于孕中期三联筛查时可显著提高筛查检出率,降低假阳性率,提高唐氏筛查效能。