论文部分内容阅读
基因表达数据提供了大量基因表达的信息,这些为理解生命的本质起着重要作用。基因表达数据常见的处理方法包括识别差异表达的基因,聚类,双向聚类和构建基因调控网络等等。尽管用这些方法也能够挖掘出隐藏在基因表达数据里面的部分信息,但所获得的信息相对而言还是较少,例如在癌症的研究中,虽然使用了许多先进的方法,数据和手段来研究这些疾病,如癌症和肿瘤基因图谱(TCGA)数据库等等,但是当前对付癌症依旧没有较好的策略,这表明研究者对相关疾病还没有获得全部的生物信息,需要反思当前这些方法存在的问题。在基因表达数据中,绝大部分基因的表达是没有明显变化的,只有很少的一部分基因是差异表达的。在这些差异表达的基因中,有一部分基因的表达是上调的,另外一部分基因是下调的,这些上调基因与下调基因是否存在关联?如果基因集V的两个子集V1和V2在部分实验条件或时间点中具有相反的表达趋势,而且每个子集之内的基因都具有相似的表达趋势,那么就说子集V1和子集V2是一个负相关表达模式,简称负相关模式,如果这个负相关模式在其他多个数据集中也存在,那么就说这个负相关模式是保守的(不变的)。基因表达谱中的负相关模式很少有学者进行深入系统探索。针对这些问题,本论文尝试从负相关的思路出发,对基因表达数据中上调和下调基因之间的这种相反变化趋势,结合生物信息学的方法和生物学的理论,从以下几个不同方面进行深入系统的探讨。其主要研究内容和结果如下:(1)设计识别负相关模式的算法:①设计了基于形式概念分析技术的负相关双向聚类算法(NCFCA算法),通过与其他算法比较表明,NCFCA算法在平均平衡率,平均皮尔森相关系数和聚类得分方面均优于其他算法,能更多地识别出数目平衡的负相关模式。②为了能处理较大的基因表达数据,本文利用CPU的多核并行技术,设计了基于形式概念分析技术的并行负相关双向聚类算法(NCFCA2算法),与NCFCA算法比较,NCFCA2算法在运行时间方面均大大优于以前的NCFCA算法。(2)三个不同数据集中负相关模式及其保守性(不变性)研究:①将NCFCA算法应用于酵母菌细胞周期的alpha 26,alpha 30和alpha 38三个时间过程的数据集,选取这三个数据集中的800个细胞周期调控基因通过分析处理之后发现:微小染色体维持蛋白基因与核心组蛋白基因会形成负相关模式,而且这个负相关模式均发现于alpha 26,alpha 30和alpha 38三个数据集。传统的观点认为,负相关的两组基因一般来说没有功能上的相似性,然而将这两组基因一起做基因集富集分析之后发现,它们表达相反的基因之间也具有显著的功能相似性,这就表明参与同一生物学过程的两组基因也可能具有相反的表达趋势。将ncfca算法应用于酵母菌10个其它细胞周期过程的表达数据之后发现,在这10个数据集中也发现微小染色体维持蛋白基因与核心组蛋白基因也能形成负相关模式。同时在最近出版的两个高精度瓦片测序的基因数据集中也证实了这一观点。这些发现表明这两组基因形成的负相关模式可能是保守的。进一步分析它们的调控关系表明:这两组基因形成保守的负相关模式的主要原因很可能是由clb-cdk1激酶是通过一个共调控和一个负调控来实现的,clb-cdk1是在细胞周期过程的不同时期上调或下调这两组基因的表达。②将ncfca2算法应用于酵母菌的2010.shapira04和gse26169这两个氧化应激响应数据集,从这两个数据集中各自选取所有通路基因的表达数据进行分析之后发现:淀粉和蔗糖代谢通路中的部分基因和嘌呤代谢通路中的部分基因的表达曲线也是负相关的。也就是说,在环境应激响应数据中两组通路的基因也会形成负相关模式。将ncfca2算法应用于酵母菌10个其它环境应激响应数据集中分析之后发现,这两条通路中的部分基因也会形成负相关模式。这些发现表明这两条通路基因之间的负相关模式可能是保守的。通过研究它们的生物学调控关系表明,这两条通路形成保守的负相关模式的原因很可能是由雷帕霉素受体复合物1(torc1)在蛋白酶体的辅助下是通过一个共调控和一个负调控来实现的。③将ncfca2算法应用于酵母菌的热休克响应和氧化应激响应的表达数据集,将这两个数据集中基因的表达值按照方差由大到小排序,通过分别选取这两个数据集中排名前1000的基因进行分析之后,发现核糖体蛋白基因与热休克响应基因;核糖体蛋白基因与氧化应激响应基因的表达曲线均是负相关的。将ncfca2算法应用于酵母菌其它的环境应激响应数据集中分析之后发现,在这些数据集中核糖体蛋白基因和其它环境应激响应的基因也能形成负相关模式。这些发现表明这个负相关模式可能是保守的。进一步研究它们的生物学调控关系表明,核糖体蛋白基因与不同环境应激响应基因形成的负相关模式,很可能也是由雷帕霉素受体复合物1(torc1)在蛋白酶体的辅助下也是通过一个共调控和一个负调控共同作用,调控核糖体蛋白基因与环境应激响应基因的表达来实现的。综合以上研究结果,表明ncfca算法和ncfca2算法能用较少的时间和空间花费,有效地识别基因表达数据中的负相关模式,特别是识别数目平衡的负相关模式。这些负相关模式经过信息冗余过滤和基因集富集分析之后,发现只有少量负相关模式是具有功能显著性,比如核糖体蛋白基因与环境应激响应基因,而且这些负相关模式可能是保守的(不变的)。进一步研究发现这些保守的负相关模式可能是由一个关键的调控子通过一个共调控和一个负调控共同作用形成的。这些说明,生物系统可能会在各个子系统内部协调上调基因与下调基因之间的表达关系。从能量的角度来讲,生物系统可能会在各个子系统中协调能量供求的平衡关系,以达到新的平衡点。