论文部分内容阅读
蛋白质是组成人体一切细胞、组织的重要成分。根据蛋白质对于生物体自身活性的重要性存在差异,可将蛋白质划分为关键和非关键两类。关键蛋白质是生物体生存和繁殖所必须的蛋白质,研究关键蛋白质有助于我们熟悉细胞存活的基本要求,并且可以为疾病治疗找到新方法。近几年,高通量技术的发展使得生物信息数据逐渐完善,蛋白质相互作用网络(Protein-protein interaction network,PPIN)数据日渐丰富。利用这些数据,研究者们提出了许多关键蛋白质识别算法。然而,PPIN数据中仍存在较高比例的假阳性和假阴性“噪声”数据。再者,现在已经有很多基因组学和蛋白质组学的数据信息。融合多个数据源可以弥补单一数据源不能全面刻画蛋白质相互作用的缺点,使各个数据源之间可以相互补充、相互印证。如何融合多源数据,提高识别关键蛋白质的准确率仍值得深入研究。针对本问题,本文在蛋白质相互作用网络的基础上,融合多元生物信息来识别关键蛋白质,主要工作如下:(1)提出了一种基于网络拓扑与多种生物信息融合的关键蛋白质识别算法。该方法首先将网络拓扑特性与亚细胞定位信息和蛋白质复合物信息结合分别提出SNC(Subcell-node Centrality)和SIDC(Subcellular-In-Degree With Complexes)两种算法,分别针对网络中两种类型的蛋白质,一种命名为三角形结构,另外一种为星型结构,并通过计算这两种类型蛋白质在网络中的占比分别赋予SNC和SIDC对应的权值。考虑到蛋白质的关键性仅仅依赖蛋白质之间相互作用的拓扑特性是远远不够的,因此将蛋白质复合物信息,亚细胞定位信息与拓扑特性结合提出最终的关键蛋白质识别算法CTB(Combination topology-bioinformation),实验结果表明该方法显著提高了关键蛋白质的识别准确率。(2)设计了一种多属性决策方案的关键蛋白质识别算法。传统的关键蛋白质的识别算法大多只关注网络中蛋白质的某一特性,存在信息丢失问题。另外,蛋白质关键性的研究由于出发点的不同而导致得出的蛋白质关键性排序序列千差万别,如在经典的中心性方法中,从网络局部结构出发的算法(如度中心性)仅仅关注网络中蛋白质的局部属性,找出的关键蛋白质都是在网络的某个局部范围中关键性最强的蛋白质集合;从网络全局结构出发的算法(如介数中心性、紧密中心性)基于网络的全局拓扑特征评估了蛋白质关键性,虽然提高了算法的精度但是所需耗费的计算时间呈几何倍数增长,不利于在较大规模的网络中应用。基于这一思想,本文从不同角度出发提出了GDC(Gene-Degree Centrality)、SNDC(Subcellular-Neighbor-Degree With Complexes)以及SIDC(Subcellular-In-Degree With Complexes)三种判别关键性的标准,与BC都作为多属性决策方案的属性。利用AHP(Analytic Hierarchy Process)加权后的TOPSIS(Technique for order performance by similarity to ideal solution)算法求解蛋白质关键性得分。经过多种评估方案分析,本文提出的EPI-TOPSIS算法提升了关键蛋白质的识别精度。(3)设计了一种有偏向重启随机游走的关键蛋白质识别算法。重启随机游走作为一种优化算法,是一种有效地网络特征信息提取方法。本文将其应用在关键蛋白质识别上,在游走过程到达稳态时,可以获得整个蛋白质相互作用网络中的每个蛋白质的信息。但是传统重启随机游走过程中,粒子在网络节点中向下一个邻居节点游走时是等概率的,忽略了不同邻居与当前节点的关系。尤其是蛋白质相互作用网络,每个蛋白质携带复杂地生物信息,并且两个相互作用的蛋白质间的功能具有相似性。因此本文利用基因表达相似性和亚细胞分布相似性重新定义转移概率矩阵,使得粒子在游走过程中更倾向于功能相似的蛋白质,即随机游走带有偏向性,从而更好地挖掘每个蛋白质的特征信息。另外,带重启的随机游走可以避免粒子在游走过程中未到达稳态时进入死角而发生终止。本文利用GO语义相似性和亚细胞定位信息构建重启概率向量来解决这一问题。最终通过有偏向的重启随机游走模型提出BRWR算法来识别关键蛋白质,当BRWR过程达到预设的稳定状态时,可以获得每个蛋白质的关键性分值,排序后可以得到候选关键蛋白质集合。实验证明该算法提升了关键蛋白质识别的准确率。