论文部分内容阅读
蛋白质复合物参与了细胞中大部分生物过程。生物过程涉及的蛋白质全体构成蛋白质功能模块,整体把握蛋白质功能模块对于阐明蛋白质功能性起到重要作用。通过计算方法分析蛋白质复合物和功能模块是获得细胞生命活动认识的重要途径。随着计算方法的不断发展,以及整合数据策略的不断创新,整合蛋白质组学数据集与模型框架、蛋白质复合物识别、动态复合物的分析以及功能模块的检测,有望促进蛋白质组学在医学领域的应用研究,为疾病诊断和靶点治疗提供更广阔的前景。
早期的基于计算的蛋白质复合物与功能模块识别方法主要利用蛋白质相互作用网络(protein-proteininteractionnetworks,PPI网络)的拓扑特征。随着生物学数据的丰富,研究者们开始融合其他的生物学信息,以更准确地识别出蛋白质复合物与功能模块。本文以蛋白质相互作用数据为基础,结合多源生物学数据,以蛋白质复合物、功能模块的本质特征为出发点,分析蛋白质复合物、功能模块的有关性质,研究提出新的蛋白质复合物与功能模块识别算法,主要研究成果如下:
(1)基于蛋白质定位数据、基因表达数据、蛋白质基因本体标注和蛋白质交互可靠性得分的多源生物学数据,依据生命有机体形成蛋白质复合物的时空约束,建立联合共定位和联合共表达准则;依据蛋白质复合物的生物相关性,提出蛋白质复合物的功能同质准则;分析蛋白质复合物在蛋白质相互作用网络的稠密可靠连接性质,基于蛋白质复合物的核心-附件结构,运用种子-扩张策略,设计一种新的静态蛋白质相互作用网络共定位共表达特征蛋白质复合物识别算法ICJointLE。在酵母蛋白质相互作用网络STRING、BioGrid、DIP、Uetz、Ito和Yu的实验结果表明,与现有的代表性同类算法相比,本文算法ICJointLE识别出的复合物与已知复合物比对,在精确匹配的数目#PM、准确率和召回率的调和平均值fm、综合得分#PM×FAM方面具有明显优势,且可以识别出更多规模为2-6的蛋白质复合物。
(2)细胞周期发展和响应环境变化使蛋白质相互作用随着时间变化而变化。为客观描述动态变化的蛋白质相互作用,提出构建时序动态蛋白质相互作用网络及生成时间区间动态蛋白质相互作用网络的方法。构建的时间区间动态蛋白质相互作用网络不仅排除时间区间内的干扰交互,而且保留时间区间内持续的交互。基于构建的时间区间动态蛋白质相互作用网络,提出一种新的时间区间动态蛋白质相互作用网络蛋白质复合物识别算法ICJointLE-DPN。该算法具有准确识别稳定持久复合物和捕捉单时间点出现的瞬间复合物的能力。通过分别将2个基因表达数据集与3个蛋白质相互作用数据集整合,构建出6个不同的时间区间动态蛋白质相互作用网络TI-PINs,并利用算法ICJointLE-DPN分别从6个不同的时间区间动态蛋白质相互作用网络TI-PINs识别蛋白质复合物。实验结果表明,算法ICJointLE-DPN从时间区间动态蛋白质相互作用网络中,精确识别出的蛋白质复合物比从静态蛋白质相互作用网络中精确识别出的蛋白质复合物更多;与现有的同类算法相比,本文算法ICJointLE-DPN不仅精确识别出更多蛋白质复合物,而且识别出的复合物与已知复合物比对,在精确匹配的数目#PM、召回率rec、准确率和召回率的调和平均值fm、最大匹配率MMR、组合得分FAM和#PM×FAM方面均具有优势。
(3)现有的蛋白质功能模块识别算法大多从拓扑角度挖掘网络中的模块化结构。动态蛋白质相互作用网络的构建有可能将一个功能模块拆分到不同的网络快照中。因此,现有功能模块识别算法未能兼顾功能模块在生物学意义上的功能性和整体性。本文在时序动态蛋白质相互作用网络的基础上,构造功能相关显著共表达可靠连接时序动态蛋白质相互作用网络,使用非零值对角线元素表示跨网边来构建时序加权邻接矩阵,提出一种从功能相关显著共表达可靠连接时序动态蛋白质相互作用网络中识别出蛋白质功能模块的算法IFM-FER-TPNs。算法IFM-FER-TPNs采用高模块内连接比例优先的策略,以识别出高内部表达相关性的功能模块;使用局部稠密连接准则,以识别出无整体稠密连接拓扑特征的功能模块;利用种子扩展策略,跨网搜索带时间戳蛋白质结点,使跨网分布的蛋白质得以聚集成簇,以形成功能模块。算法IFM-FER-TPNs的跨网搜索机制消除了动态蛋白质相互作用网络的构造割裂功能模块的可能性。实验结果表明,与现有的同类算法相比,算法IFM-FER-TPNs不仅精确识别更多的蛋白质功能模块,而且识别出的功能模块与已知功能模块比对,在精确匹配的数目#PM、召回率rec、准确率和召回率的调和平均值fm、最大匹配率MMR、组合得分FAM和#PM×FAM等方面均具有优势。
本文的研究成果将丰富和促进蛋白质相互作用网络蛋白质复合物与功能模块识别算法的发展。
早期的基于计算的蛋白质复合物与功能模块识别方法主要利用蛋白质相互作用网络(protein-proteininteractionnetworks,PPI网络)的拓扑特征。随着生物学数据的丰富,研究者们开始融合其他的生物学信息,以更准确地识别出蛋白质复合物与功能模块。本文以蛋白质相互作用数据为基础,结合多源生物学数据,以蛋白质复合物、功能模块的本质特征为出发点,分析蛋白质复合物、功能模块的有关性质,研究提出新的蛋白质复合物与功能模块识别算法,主要研究成果如下:
(1)基于蛋白质定位数据、基因表达数据、蛋白质基因本体标注和蛋白质交互可靠性得分的多源生物学数据,依据生命有机体形成蛋白质复合物的时空约束,建立联合共定位和联合共表达准则;依据蛋白质复合物的生物相关性,提出蛋白质复合物的功能同质准则;分析蛋白质复合物在蛋白质相互作用网络的稠密可靠连接性质,基于蛋白质复合物的核心-附件结构,运用种子-扩张策略,设计一种新的静态蛋白质相互作用网络共定位共表达特征蛋白质复合物识别算法ICJointLE。在酵母蛋白质相互作用网络STRING、BioGrid、DIP、Uetz、Ito和Yu的实验结果表明,与现有的代表性同类算法相比,本文算法ICJointLE识别出的复合物与已知复合物比对,在精确匹配的数目#PM、准确率和召回率的调和平均值fm、综合得分#PM×FAM方面具有明显优势,且可以识别出更多规模为2-6的蛋白质复合物。
(2)细胞周期发展和响应环境变化使蛋白质相互作用随着时间变化而变化。为客观描述动态变化的蛋白质相互作用,提出构建时序动态蛋白质相互作用网络及生成时间区间动态蛋白质相互作用网络的方法。构建的时间区间动态蛋白质相互作用网络不仅排除时间区间内的干扰交互,而且保留时间区间内持续的交互。基于构建的时间区间动态蛋白质相互作用网络,提出一种新的时间区间动态蛋白质相互作用网络蛋白质复合物识别算法ICJointLE-DPN。该算法具有准确识别稳定持久复合物和捕捉单时间点出现的瞬间复合物的能力。通过分别将2个基因表达数据集与3个蛋白质相互作用数据集整合,构建出6个不同的时间区间动态蛋白质相互作用网络TI-PINs,并利用算法ICJointLE-DPN分别从6个不同的时间区间动态蛋白质相互作用网络TI-PINs识别蛋白质复合物。实验结果表明,算法ICJointLE-DPN从时间区间动态蛋白质相互作用网络中,精确识别出的蛋白质复合物比从静态蛋白质相互作用网络中精确识别出的蛋白质复合物更多;与现有的同类算法相比,本文算法ICJointLE-DPN不仅精确识别出更多蛋白质复合物,而且识别出的复合物与已知复合物比对,在精确匹配的数目#PM、召回率rec、准确率和召回率的调和平均值fm、最大匹配率MMR、组合得分FAM和#PM×FAM方面均具有优势。
(3)现有的蛋白质功能模块识别算法大多从拓扑角度挖掘网络中的模块化结构。动态蛋白质相互作用网络的构建有可能将一个功能模块拆分到不同的网络快照中。因此,现有功能模块识别算法未能兼顾功能模块在生物学意义上的功能性和整体性。本文在时序动态蛋白质相互作用网络的基础上,构造功能相关显著共表达可靠连接时序动态蛋白质相互作用网络,使用非零值对角线元素表示跨网边来构建时序加权邻接矩阵,提出一种从功能相关显著共表达可靠连接时序动态蛋白质相互作用网络中识别出蛋白质功能模块的算法IFM-FER-TPNs。算法IFM-FER-TPNs采用高模块内连接比例优先的策略,以识别出高内部表达相关性的功能模块;使用局部稠密连接准则,以识别出无整体稠密连接拓扑特征的功能模块;利用种子扩展策略,跨网搜索带时间戳蛋白质结点,使跨网分布的蛋白质得以聚集成簇,以形成功能模块。算法IFM-FER-TPNs的跨网搜索机制消除了动态蛋白质相互作用网络的构造割裂功能模块的可能性。实验结果表明,与现有的同类算法相比,算法IFM-FER-TPNs不仅精确识别更多的蛋白质功能模块,而且识别出的功能模块与已知功能模块比对,在精确匹配的数目#PM、召回率rec、准确率和召回率的调和平均值fm、最大匹配率MMR、组合得分FAM和#PM×FAM等方面均具有优势。
本文的研究成果将丰富和促进蛋白质相互作用网络蛋白质复合物与功能模块识别算法的发展。