论文部分内容阅读
生物高通量技术可以同时检测数以万计的基因或蛋白的表达水平,检测基因表达的技术主要包括的生物芯片技术和生物高通量测序技术,检测蛋白表达的技术主要有双向电泳加质谱或是iTRAQ技术等。生物高通量技术使生物学家或医学工作者有机会从整个基因组水平检测细胞内基因/蛋白的表达情况。但是,如何解释和分析这些高通量技术所产生的大量的数据仍是一个相当大的挑战。为此,本研究采取多种方法,对大鼠肝再生基因芯片检测数据进行了较为系统的挖掘,并从中找出了一些在肝再生过程中起重要作用的基因。目前,常用的选择特征基因的算法有过滤法、包装法、内含法等。其中,过滤法的特点是计算速度快,效率较高,是最常用的算法。本研究首先运用过滤法的12种算法选择特征基因,然后,建立整合统计学方法,即统计基因在每种方法中的名次之和,按名次之和从小到大排序,同时按基因在各种方法中出现的频率从大到小排序。又进一步加和两种排序后,从小到大排序。在此基础上,分别采用序列向前法和遗传算法并结合四种分类器:决策树,支持向量机,朴素贝叶斯网络,人工神经网络等对特征基因进行了进一步的筛选。为了进一步分析特征基因之间的相互作用关系,本研究采用当前研究较热的贝叶斯网络方法分别构建了大鼠肝再生关键基因的各个时间点静态、分阶段和整体的动态调控网络,与Pathway studio中已经报道过的和真实的基因相互作用关系进行了对比。然后通过网络分析法对上述网络进行了分析。整合统计学方法结果表明,整合统计学方法和大部分方法结果相吻合,有效的避免了使用固定一种方法出现的偏差,其中,基于相关系数的方法和基于T检验的方法吻合率最高。用整合统计学方法筛选的1000个大鼠肝再生特征基因中,文献报道135个基因与肝再生相关。这些基因参与细胞增殖、细胞分化、免疫反应等多种生理活动,与已知的肝再生涉及的生理活动一致。包装法结果表明,从分类正确率指标来看,两种方法都能在相对较少的基因数目的基础上,达到很高的分类正确率。其中序列向前法在4-5个基因时,三个分类器的分类正确率达到了100%。遗传算法在经过多代以后也都达到了99%左右,说明所选的基因在PH组和SO组之间有很高的区分度。通过查找相关文献发现序列向前法所选基因都是与代谢密切相关,遗传算法所选基因与肝再生关系密切,如Myc原癌基因参与细胞增殖和癌发生;Glod5在肝肿瘤组织中上调,可能参与负调控肝肿瘤。Ccdc126为盘绕圈状结构域蛋白家族成员,在肝脏、肾、血液中特异性表达。贝叶斯网络方法结果表明,在分阶段网络中启动阶段和终止阶段网络较稀疏,进展阶段的网络较为复杂,和肝再生实际情况符合。贝叶斯网络中和实际发现的网络中得分最高的前18条相互关系中有7条已经被文献报道。在整个肝再生中通过时间点敲出实验发现,12h对于整个肝再生生过程的影响最大。文献资料表明,12h是肝再生启动和进展阶段的转折点,对肝再生过程意义重大。通过对网络指标的分析发现了很多重要的节点基因。Tec基因,在肝再生早期表达,可能参与到了已分化肝细胞的激活反应中。Lyn可能参与负调控早期阶段的由线粒体介导的细胞凋亡反应,在肝损伤早期抑制肝细胞凋亡。综上所述,经过融合上述多种方法,能够有效的从大鼠肝再生中挖掘关键基因。对生物高通量分析形成了一套较为完整的分析思路。