论文部分内容阅读
在大数据时代,随着分子生物学的发展,对于复杂疾病的研究已经发展至多种组学时代。组学数据是一种生物医学大数据,其具备高维度,小样本的特点(p>n),对传统的统计学方法提出了新的挑战。复杂疾病一般被认为是外在环境因素与内在遗传特征交互作用所导致的,而遗传学特征根据中心法则由上而下包括了多种微观组学数据,如基因变异,DNA甲基化,基因表达,miRNA表达,蛋白质表达等各个层面。全面认识不同组学层面的信息对认识疾病的发生发展至关重要。在医学临床研究中,组学数据与患者的疾病进展乃至疾病结局都有着紧密的联系。因此,组学数据亦常常被作为生物学标志物来预测患者的结局优劣。然而,仅仅利用单个变量(位点,基因等)来进行预测往往效果不如整合多个变量乃至多个组学的数据。本文针对肿瘤患者的预后结局,围绕常见组学数据,就无监督和有监督两部分预测模型构建方法进行研究。每一个部分又分为模拟实验和实例分析。第Ⅰ部分是基于无监督类别组学预后预测模型的算法提出并与常见方法比较。我们提出一种无监督类别多组学整合预测模型的算法Random partition fusion based on K-means(RPFKM),并与现在常见的算法[K-means,系统聚类,基于高斯混合模型的EM算法聚类,iCluster和Similarity network fusion(SNF)]进行比较。随后我们进行了多组学模拟实验,模拟了多元正态分布、介于0-1之间的beta分布和三分类定性资料三种常见类型的组学数据。通过模拟实验,我们发现,在使用标准互信息量和调整兰德指数评价分类效果时,整体的分类效果随着模拟参数阳性变量比例,阳性变量效应值,组间差距的增大而提升。其中,RPFKM的分类效果表现较其他几种方法好,尤其在阳性变量比例较低时分类效果较为出众。在使用C-index来评价结局预测能力时,阳性变量比例较低时RPFKM的预测能力较高,而当阳性变量比例较高时几种方法差别不大。在实例数据分析中,我们使用了癌症基因图谱(TCGA)数据库多肿瘤数据来全面评估RPFKM算法在各肿瘤中的预测表现。我们选取了ImmPort数据库的免疫基因谱对应的肿瘤组织的基因表达、DNA甲基化和具有广泛调控关系的miRNA三种组学数据。结果发现在大部分肿瘤中都能显著识别患者的预后优劣,有着较高的C-index,在所有肿瘤中平均C-index为0.668,标准差为0.084。我们也发现了在部分肿瘤中分类效果欠佳,可能是由于分子生物学特征之外的其他环境因素交互作用所导致。第Ⅱ部分是基于有监督类别组学预后预测模型的方法学评价。我们对现有常见有监督类别组学预后预测模型的方法进行系统评价,包括了单变量筛选,惩罚回归类方法[最小绝对收缩和选择算子(LASSO),弹性网(ENET),确定独立筛选(SIS)等]以及机器学习类方法(随机森林,CoxBoost等)。在模拟实验中,我们模拟了多元正态分布数据,并根据数据协方差结构设置了独立变量、关联变量和基于实际数据结构的三种场景。从整体预测效果C-index,模型拟合程度R2,真阳性率TPR和假阴性率FNR来看,LASSO,ENET和CoxBoost三种方法的预测表现较佳。但就错误发现率FDR而言,各种变量筛选方法都有着较高的FDR,不容忽视。在实例数据分析中,本文针对口腔鳞状细胞癌的甲基化、基因表达和临床因素三种组学数据进行了整合分析。为了识别口腔癌中的甲基化特征,本研究使用了一个多阶段筛选策略首先建立DNA甲基化的预后模型。首先使用TCGA口腔癌数据作为训练集,并从GEO数据库中选取两个独立的数据集验证模型。随后本文探讨了甲基化与基因表达之间的关系以及表达预后的关联。最后使用中介分析来研究DNA甲基化、基因表达和患者预后间的因果关联。本研究最终筛选出7个CpG位点来建立预后模型,能够显著预测患者的生存结局,ROC曲线显示模型具有一定的预测能力[训练集:危险比(HR)=3.23,P=5.52×10-10;验证集1:HR=2.79,P=0.010;验证集2:HR=3.69,P=0.011]。7个CpG位点对应的基因表达(AJAP1、SHANK2、FOXA2、MT1A、ZNF570、HOXC4和HOXB4)也与口腔癌患者的生存显著相关。中介分析表明甲基化对于预后的影响部分是由基因表达所中介的。整合DNA甲基化、基因表达和临床数据三大组学能够提供最好的预后预测能力(AUC=0.78)。DNA甲基化和基因表达生物标志物的识别有助于提高口癌癌的早期诊断和生存预测,为临床辅助治疗提供帮助,为精准医疗提供依据。