论文部分内容阅读
后基因组时代,功能基因组学研究的目标就是破译基因的功能并控制它们。由于具有相互作用的蛋白质趋向于有相似的细胞功能,可以利用最新的蛋白相互作用网络实验数据和其他大规模蛋白组数据,从系统生物学的角度出发,采用“相互作用->网络->功能”的新思路,通过比较已知和未知基因来类推蛋白的可能机能。本文从网络可视化、含时空的多数据源的聚类、蛋白模块化聚类等切入点入手,提出图聚类的新算法,解决蛋白功能分析的实际问题,采用多种评价方法对国际上和我们新开发的聚类方法进行综合评估,最终把聚类方法研究和可视化软件开发结合起来,对出芽酵母蛋白功能进行综合研究。本文提出了一种简单但信息丰富的手段来整合蛋白网络的拓扑信息和生物信息对网络进行可视化。在我们的方法中,可以很好地把如准团和“辐条状”团通过一棵聚类树显示出来,同时可以把从蛋白功能注释到相互作用的相关性图谱等注释到根据树的顺序表示的矩阵表示上,与以往的聚类方法相比,我们聚类算法ADJW既能很好的反映蛋白相互作用网络的拓扑性质,又富含有意义的生物信息,并且很适合矩阵可视化,是一种适合网络可视化的聚类算法。本文提出了一个简单而有效的层次聚类算法整合高通量的数据来研究生物网络的系统和动力学性质,可以有效的揭示酵母蛋白-蛋白相互作用网络中的模块化结构,通过整合的高通量蛋白相互作用和相关的亚细胞定位组数据及表达谱数据区分蛋白复合物和蛋白功能模块。此外,我们的检测模块的方法为在模块中的没有注释功能的蛋白提供了一种研究蛋白功能的背景信息。另一方面,整合各方面的蛋白相关信息可以使我们的方法对数据(特别是复合物)的假阳性具有更高的鲁棒性。本文打破了传统的基于蛋白间相似度的聚类模式,直接从蛋白功能团的角度出发,考虑功能团间的一阶和二阶相互作用,提出了模块化聚类方法(MCM),对实验数据进行聚类分析,来预测模块内未知蛋白的功能。通过超几何分布P值法和增、删、改相互作用的方法对聚类结果进行预测能力分析和稳定性分析。结果表明模块化聚类方法具有较高的预测准确度和覆盖率,有很好的容错性和稳定性。此外,模块化聚类分析得到了一些具有高预测准确度的未知蛋白的预测结果,将会对生物实验有指导意义,其算法对其它的具有相似结构的网络也具有普遍意义。本文设计了适合网络可视化的聚类软件,该软件集成了蛋白网络常用的聚类算法,采用矩阵显示和传统显示相结合的方式进行蛋白网络可视化,结合蛋白功能信息和其它相关生物学信息,为生物学家提供一个跨系统的蛋白相互作用网络分析平台。另外,我们还采用图论中谱分析的研究方法来揭示复杂的蛋白-蛋白相互作用