论文部分内容阅读
肺癌在我国已成为发病率和死亡率最高的恶性肿瘤。其中,非小细胞肺癌(Non-small-cell lung carcinoma,NSCLC)占肺癌的85%以上。鳞状细胞癌(Squam-ous cell carcinomas,SCC)和腺癌(Adenocarcinomas,AC)是NSCLC最主要的两种病理类型。这两种肺癌的发生机制、生长过程等均有很大的不同,在临床治疗上也应该采用不同的治疗手段。然而,由于目前对SCC和AC发生分子机制方面的研究还比较缺乏,一般对这两种亚型采取相同的治疗措施,结果导致治疗效果不够理想。因此,本研究旨在利用生物信息学分析方法筛选SCC和AC特征基因,并通过基因的功能分析及上游调控因子的预测分析两种亚型潜在的不同致病机制。此外,目前已报道了一些特征选择的方法,但是都存在不同的缺点,尤其是对于单基因特征分析的准确性不高。因此,本研究还分析了特征选择算法SAM-GSR区分SCC和AC亚型和划分各亚型所属疾病阶段的可行性。首先从NCBI GEO数据库中搜索到四个合格的数据集(GSE10245,GSE18842,GSE2109和GSE43580)并获取相关表达谱数据,通过Meta QC包对数据进行质控检验和Meta DE包筛选显著差异表达的特征基因(也称为差异表达基因,DEGs)。利用rank函数和cor.test函数检验两两数据集间基因显著差异的相关性和一致性。其次,利用DAVID在线分析工具对DEGs分别进行GO功能和KEGG通路的富集分析。第三,综合STRING、Bio GRID和HPRD三个数据库中的人类蛋白-蛋白相互作用关系,取3者并集获得DEGs的蛋白相互作用关系,构建DEGs的蛋白互作关系网络,并利用Cytoscape3.3对网络可视化;用节点的度分布,节点接近程度,中介性核心性三个指标分析网络拓扑结构。对网络中每个节点的三个参数分别进行降幂排序,每个参数均取top100的节点,对三个参数top100的基因进行比较,选择交叠部分进行通路以及转录调控因子(Transcription Factor,TF)富集分析。第四,利用mi R2Disease数据库搜索与AC和SCC直接关联的mi RNAs。通过mi Randa数据库对疾病直接关联的mi RNA靶向的靶标基因进行检索。将靶标基因映射到之前筛选得到的重要基因中,再结合前一步得到的重要基因相关的TFs,构建疾病mi RNA和TF调控网络。接着,以GSE43580为训练数据集,其他三组表达谱数据为验证数据集,利用随机森林算法(RF)筛选最优重要基因,利用支持向量机(SVM)构建分类模型。最后,利用SAM-GSR算法分析了GSE50081数据集和癌症基因组图谱计划数据库(TCGA)的RNA-seq数据,相互交替作为训练集和验证集,分析SAM-GSR算法在NSCLC数据阶段划分中的性能以及与其它特征选择算法进行了性能比较。研究得到以下几个结果:(1)基于Meta DE包共筛选得到1201个一致性显著DEGs,其中661个显著下调表达的基因和540显著上调表达的基因。(2)GO功能和KEGG通路的富集分析表明这些DEGs显著富集的GO功能主要有细胞黏附、钙离子结合、生物黏着和表皮细胞分化等,而大多数DEGs显著富集的KEGG通路有细胞粘附分子、补体和凝血级联反应、糖酵解途径和黑素合成等。(3)在整合的相互作用网络中,共获得869对互作关系,包含529个基因节点,其中包括135个显著下调表达和394个显著上调表达的基因。通过各节点Degree、BC和CC值top100节点的排序并取交集,得到了39个重要基因。其中,上调的ELAVL1和MYC的度分布、BC和CC值均分别排名第一和第二。这39个重要基因显著富集到细胞周期通路,P53和TGF-β信号通路等,此共预测了8个显著相关的TFs,例如NFY,EGR1和NKX2-2等。(4)总共预测得到了5个与肺癌相关的mi RNAs(hsa-mi R-200b、hsa-mi R-205、hsa-mi R-18a、hsa-mi R-486和hsa-let-7a),且在整合的mi RNA-target-TF网络中,共包含32个节点,其中包括4个mi RNAs、8个TFs、3个显著下调和17个显著上调表达的基因;该网络中mi R-200b下游靶基因数目最多,包括ERRFI1,PPARGC1A和MAPK6;其次let-7a可能调控下游靶基因有EZH2、MAPK6、MYC、SUV39H1和TK1等。(5)RF算法提取出由5个基因构成的最优基因组合:SNCA、IFI16、MAPK6、ERRFI1和SFN,以包含样本数最多的GSE43580数据集作为训练数据集,基于前一步筛选得到的5个最优基因组合构建疾病亚型判别分类器,能够准确分类133个样本(75个AC和58个SCC),准确率为88.67%,用剩余的三个数据集验证结果表明该分类模型具有可重复性和可移植性。(6)各种算法的性能统计表示SAM-GSR算法较Lasso,Penalized SVM,DEGs+SVM和Radviz+SVM算法具有一定的可比性,SAM-GSR的信念混淆度量(BCM)值达0.609,精确回归曲线下面积(AUPR)值达0.63,分别排名第一和第二。结论:1.我们发现一系列角蛋白家族成员在鳞癌和腺癌样本间存在差异表达如KRT1、KRT4、KRT5、KRT6B、KRT15、KRT16、KRTAP19-1、KRT23、KRT75、KRT33A,且这些基因在鳞癌中的表达均高于腺癌。2.CDK1,CCND1,SFN和CHEK2可能通过调控细胞周期和P53信号通路,介导AC和SCC细胞增殖速度的不同,此外DEGs SMAD7和MYC富集在TGF-β信号通路,表明两种肺癌亚型可能在TGF-β信号通路调控上存在差异。3.上调的mi R200b可能通过下调ERRFI1和PPARGC1A在肺癌的发生中起重要作用,且该调控机制与鳞癌的相关性更大;下调表达的let-7a可能调控EZH2、SUV39H1、TK1和MYC在NSCLC的肿瘤形成中起促进作用,且其下游靶基因在肺鳞癌样本的表达高于腺癌,同样表明该调控机制与鳞癌的相关性更大。4.机器学习方法筛选出5个最优化的重要基因:SNCA、IFI16、MAPK6、ERRFI1、SFN,利用这5个基因在AC和SCC亚型样本中的表达特性构建的样本类型判别分类器,能够准确地识别不同亚型的肺癌样本,这对确定肺癌亚型,指定针对正确亚型指定治疗和防御方案具有重要作用。5.SAM-GSR算法可以应用于AC和SCC特征选择,对于疾病亚型的阶段划分较其它算法具有可比性。考虑到该算法存在通路信息不完整、未涉及路径拓扑知识和模型简约等缺点,因此也需要不断稍加修改SAM-GSR算法和在未来的工作中继续评估,以推进基于通路的特征选择算法的发展。