识别蛋白质相互作用网络中的复合物

来源 :中南大学 | 被引量 : 2次 | 上传用户:csxna
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了阐明细胞的内部工作机制,重建细胞内完整的蛋白质交互作用网络成为了分子生物学的一大挑战。由于最近发展起来的高通量技术,许多蛋白质之间的相互作用已被发现,并且用来存储它们的相关信息的许多数据库已被建立。随着生物实验技术的发展,提出了各种蛋白质功能模块预测算法。   蛋白质之间的相互作用是传递从细胞外到细胞内信号的主要途径,反之亦然。信号的传导是细胞内一个基本的过程,因为它可以使细胞对外界的刺激反应,并调节不同的亚细胞机制。通常来说,蛋白质相互作用的时间很短,但是蛋白质有时也会较长时间作用,形成一个所谓的蛋白质复合物。在过去几年里,开发了许多大规模的相互作用数据,并在相关文献中有所提及。   基于图的蛋白质功能模块预测算法是最广泛使用的。人们观察到,图中的稠密区域更可能是蛋白质复合体。然而,并没有可靠的证据表明这些方法的结果具有显著的生物意义。由于蛋白质相互作用网络存在噪声,可能会引入一定程度的假阳性和伪阴性。另外,绝大多数方法往往忽略了蛋白质的多功能性。   本论文的主要目的是提出一个新的蛋白质模块检测方法,它解决基于图的蛋白质检测算法存在的缺陷和提高预测结果的生物意义。在我们的研究中,我们设计了一种迁移策略,使蛋白质能在簇之间迁移,最后能得到生物学上相似的蛋白质分组。   采用模糊c均值聚类算法(FCM)是因为它非常符合迁移原理,另外,它能理想的描述生物网络固有的不确定性。FCM是基于模糊集合理论。模糊集合理论于1955年首次提出,并获得了很大的成功,因为它通过允许一个元素在一定程度上属于一个集合,能够使我们描述不确定性。因此,FCM考虑了类指派的不确定性的,是一种将一个集合的数据划分到数目预先定义好的类中去的方法。FCM算法迭代地更新中心的值和伙伴关系。通常,FCM会收敛到一个局部最小值,但是高的数据维数使它能够收敛到一个马鞍点。其他因素,比如说初始矩阵的值和模糊参数的值也可以影响算法的收敛性。   因此,谱聚类算法被用来更精确地测量网络中的距离,并处理高维度的数据。普聚类最初提出了是为了解决min-cut问题,通过首先计算图的特征向量和图相似矩阵的特征值,然后以第二特征向量来决定如何分配元素的问题。在我们的实验中,FCM算法应用于前k个特征向量,这些向量能够帮助我们减少数据空间,然后在另一个空间聚类。   为了将模糊c均值聚类和谱聚类方法运用于蛋白质网络的环境中,我们对这些技术进行研究来了解它们的优势以及局限性,并定义了一些考虑了蛋白质的生物和拓扑特性的指标。因此,我们的FCM的初始关系矩阵的生成不像在标准情况那样的随机生成,而是从一个使用我们定义的考虑了蛋白质拓扑连接和它们所处环境的生物相似性的度量的初始关系矩阵出发。这种以初始关系矩阵开始的方法在处理生物数据时比随机关系矩阵更具有实用性。   为了调研不同生物数据对距离计算的影响,我们定义了三种生物距离。第一种是仅仅基于GO相似性,即通过蛋白质所拥有的GO term,以及GO DAG图的结构来计算两个蛋白质的相似性。第二种距离完全基于域相互作用信息,从而相似性的计算是通过考虑两个蛋白质包含的域和它们相互作用邻居包含的域。第三种度量是结合了这两种信息,将两种相似性的平均值作为总的相似性值。   本文以酵母蛋白质相互网络为例,试图提高三种广泛使用的基于图的代表算法,分别为MCL、MCODE和DPClus算法,生成大、中、小尺寸的复合物。实验结果表明,三种距离的使用能够得到良好的具有生物意义的结果,但是我们推断出结果的质量依赖于预测的复合物的尺寸,因为对于任何一种距离度量,大尺寸的复合物通常产生很差的结果。但是对于三种算法最好的折中是使用结合了GO和域相互作用的第三种距离。
其他文献
图像是人们获取信息、保存信息和传递信息的重要手段,在人们的生活中占据了重要的地位,尤其是文本图像,其中包含的信息往往非常重要,也因此人们对于文本图像的质量要求很高。
随着计算机的普及,互联网用户数持续不断增长,网络上每天产生大量的数据。同时,一些具有大规模用户的信息系统,每天新增大量的数据。数据挖掘和机器学习算法为我们从繁杂的数据中
目前大多数分布式文件系统采用静态备份机制保证系统的高可靠性,其要求文件的访问模式和存取节点范围在其生命周期中保持一致,由于用来备份的文件副本数量全局统一,忽略了文件重
随着互联网技术的不断发展,各种Web应用可能具有不同的开发环境、部署平台,甚至通信协议。如何使这些应用在网络环境中进行无缝集成,实现信息共享和交换,正变得越来越重要。W
λ演算是一个把函数当做方程式的理论,是一个把函数当做表达式操作的系统。它与可计算性、计算机科学、逻辑及数学等都有存在一定的联系。λ演算和图灵机是等价的。且它是函数编程语言的基础。此外,λ演算和逻辑系统也存在着奇妙的对应关系,这种对应关系称为Curry-Howard同构。我们还可以利用λ演算构造各种不同的数学模型。因此,对λ演算的研究,对计算理论、程序语言设计、逻辑及数学等都有重要的意义。标准化、C
随着信息技术和数据库技术的迅猛发展,人们能够获取的数据也与日俱增,对数据的加工处理已经成为人们获取有用信息不可缺少的工具。数据挖掘是一种通用的知识发现技术,利用各
近年来,复杂网络的传播机制与传播动力学作为复杂网络的一个重要分支得到广泛的研究。复杂网络的研究内容非常广泛,涉及的学科门类众多。传播现象在自然界和人类社会生活中广