论文部分内容阅读
蛋白质是生命的物质基础。生物的一切生命活动依靠一系列蛋白质之间的相互作用而实现。蛋白质相互作用网络(PPI网络)是描述蛋白质之间交互活动的生物网络。关键蛋白质是PPI网络中承担重要功能的关键节点。因此,从网络的角度侦测和识别关键蛋白质是生物信息学的重要研究内容。目前基于网络(图结构)的关键蛋白质识别研究主要集中于两个方面:1)利用多种信息融合构建更可靠的PPI网络;2)基于图结构的中心性度量方法或机器学习方法。但是,这些研究基本都是针对单层网络展开的,很少从多层时序网络的角度来构建PPI网络,并研究其性质。这正是本文的研究目的和任务。本文主要研究工作如下:(1)提出广义3Sigma阈值方法3Sigma方法是根据基因表达水平数据判定蛋白质活跃状态的常用阈值方法,对活跃PPI网络构建具有重要作用。该方法通过k值系数和F函数调节阈值对均值的偏离程度。为了进一步提升构建PPI网络的数据质量,本文在3Sigma方法的F函数中引入了标准差的指数参数h,通过调整参数h,可以有效调节不同离散程度的基因表达水平数据的阈值设置。称为广义3Sigma方法。当h=2,还原为3Sigma方法。实验表明,通过在PPI网络中调整h和k,比单独调整k,具有更高的关键蛋白质识别率。(2)提出多层活跃PPI网络构建方法目前活跃PPI网络构建,主要通过阈值方法,判定蛋白质在各个观测时点的活跃状态,然后计算活跃相互作用集合,并由该集合从静态PPI网络导出活跃PPI网络。提出多层活跃PPI网络构建方法,首先通过阈值方法,计算得到各观测时点的活跃蛋白质节点集,并从静态PPI网络导出各活跃节点集的时序PPI网络,最后构成多层活跃PPI网络。实验表明,在多层网络中,T=8时序层的节点和相互作用均最具活跃性。相比于其它时序层,三种中心性方法在T=8时序层的关键蛋白质识别率均为最高,其中Top100最高识别数量为85,高出单层活跃PPI网络3.66%,Top600最高识别数量为346,高出单层活跃PPI网络6.79%。(3)提出多层加权平均中心性方法在多层网络的基础上,提出多层加权平均中心性度量方法,解决多层网络关键蛋白质识别问题。该方法首先对各时点网络层的活跃蛋白质进行中心性度量,然后根据给定的层权值系数,对每个蛋白质各层中心性值进行加权求和,并除以该蛋白质的活跃层数,得到该蛋白质的最终中心性值。最后采用排序方法,计算关键蛋白质的识别率。实验表明,多层PPI网络具有更高的关键蛋白质识别率,Top100最高识别数量为88,高出单层活跃网络7.32%,Top600最高识别数量为376,高出单层活跃网络16.05%。本文从多层网络的角度,围绕阈值方法、多层网络构建方法、多层加权中心性度量方法等问题开展了相关研究,为研究多层网络中蛋白质相互作用性质及关键蛋白质侦测提供了一种探索途径。