论文部分内容阅读
生物信息学是八十年代末随着人类基因组计划的启动而兴起的一门新兴交叉学科,是当今生命科学和自然科学的重大前沿领域之一。pathway预测是后基因组时代各类组学研究的基础,已成为近年来生物信息学的研究热点之一。计算机科学领域的数据挖掘方法因其在大规模数据中卓越的处理能力而在生物信息学中得到广泛应用,本文旨在利用计算方法来挖掘出目标物种中的代谢pathway元素。为此,主要围绕蛋白质相互作用网络(Protein-Protein Interaction Network,PPI网络)分析这一主题,对其采用的模型、相关聚类方法以及预测结果评价等问题作了深入的分析与研究,主要工作有以下几个方面:1.提出利用蛋白质相互作用数据集来间接预测pathway的思路。首先根据蛋白质相互作用数据构建PPI网络,然后利用聚类算法来挖掘其中具有某种生物功能的蛋白质簇,借由蛋白质与基因之间的转录对应关系,来预测代谢pathway中的基因。2.优化相关性定义,改进了Samanta基于概率模型的层次聚类算法。首先讨论了根据概率模型选取的聚类阈值以及相关性的基本定义,为提高预测准确性,全面分析PPI网络,综合考量了蛋白质对间一阶,二阶相互作用,并改进相关性定义,使其增加生物学意义,在大肠杆菌的DIP数据集上实验,聚类结果中有19个簇,其簇内所有蛋白质对应的基因簇全部出现在同一pathway中,证明了算法的有效性。3.利用谱聚类算法来划分PPI网络中的社团结构。针对大肠杆菌PPI网络中社团结构不够显著的特征,考虑利用全局性图划分的方法,重点分析研究了基于Normal矩阵的谱平分法,并讨论了谱聚类算法在PPI网络中挖掘蛋白质社团结构时的具体应用,参照实验结果,说明选择谱聚类算法的实际意义。