论文部分内容阅读
目的:肺癌位居全球肿瘤死因的首位。2018年约176万人死于肺癌。肺癌患者的5年生存率依然较低,给社会造成沉重负担。基于分子生物标记物的现有早期非小细胞肺癌(non-small cell lung cancer,NSCLC)预后预测模型存在样本量小、预测精度低、无独立人群验证等诸多不足。因此,如何构建高精度且可靠的预后预测模型有待研究。对象与方法:本研究采用两阶段设计。初筛阶段,基于美国、挪威、瑞典、西班牙4个研究中心613例NSCLC病人的DNA甲基化数据和基因表达数据,以及来自高通量基因表达数据库(Gene Expression Omnibus,GEO)425例NSCLC病人的基因表达数据,整合分析主效应和交互作用,包括基因、环境主效应,基因-基因(gene-gene interaction,Gx G)、基因-环境(gene-environment interaction,Gx E)交互作用。验证阶段,基于癌症基因图谱(The Cancer Genome Atlas,TCGA)617例NSCLC病人的DNA甲基化数据和基因表达数据,验证初筛阶段筛选出的预测因子。本研究从全基因组角度、泛癌基因角度进行预后关联分析,结合既往研究已经发现的候选基因,构建预后预测模型。统计分析方法包括基于结构化矩阵补全方法(Structured Matrix Completion,SMC)的块缺失填补、Cox比例风险模型、基于似然比检验的向前逐步回归、基于LASSO惩罚的迭代确定性独立筛选法(iterative Sure Independent Screening,ISIS)、基于最近邻估计(nearest neighbor estimator,NNE)的Time-dependent ROC、bootstrap方法、Cochran’s Q检验、分层分析、敏感性分析等。研究结果:(1)基于全表观基因组的基因-年龄交互作用的分析,本研究发现存在一个肺腺癌(LUAD)相关的甲基化位点(cg14326354PRODH),对于肺腺癌生存的效应随病人年龄不同而发生改变。且结果显示两个年龄组完全相反的cg14326354PRODH低甲基效应方向(HR年轻人=2.44;95%CI:1.26-4.72;P=8.34×10-3;HR老年人=0.58;95%CI:0.42-0.82;P=1.67×10-3)。cg14326354PRODH低甲基化与衰老存在拮抗交互作用,影响NSCLC患者的预后。(2)基于泛癌基因的甲基化和基因表达分析,经整合主效应、Gx E交互作用、Gx G交互作用,本研究构建出最终预后预测模型,并在验证阶段的TCGA数据集中评价其预测效果。相比于仅具有临床信息的模型(AUC3年=0.647,AUC5年=0.657),本研究构建的全模型,对早期NSCLC生存具有较为优良的预测能力(AUC3年=0.877,95%CI:0.83-0.93;AUC5年=0.889,95%CI:0.81-0.92)。同时,评价指标C-index也显示出模型较为令人满意的预测效果(C-index=0.82,95%CI:0.78-0.86)。本研究最终给出了列线图,可根据预后评分和临床信息计算个体3年、5年生存概率,以方便临床应用。结论:本研究基于表观基因组、转录组两组学,综合考虑主效应、Gx E交互作用、Gx G交互作用,结合已发现的候选基因,构建了更为准确的早期NSCLC预后预测模型,可用于临床更精准地识别高死亡风险患者,既而指导辅助治疗。