论文部分内容阅读
在后基因组时代,生命科学的中心任务是阐明基因组所表达的真正执行生命活动的全部蛋白质的表达规律和生物功能。蛋白质与配体相互作用以及蛋白质结构与功能之间的关系是后基因组时代研究的核心内容,而蛋白质的结合位点的预测是这些研究领域的理论基础,同时也是基于结构的药物设计中至关重要的步骤,对计算机辅助药物设计和复合物结构预测具有重要意义,也是生物信息学领域一个重要的研究热点。 配体小分子通常结合于蛋白质表面类似口袋的区域,许多基于几何的算法都基于这一特性,在蛋白质表面寻找一些凹陷区域作为候选的蛋白质活性位点。本文中我们提出了了一种新颖的算法称为ConHull,首先通过三维凸包和蛋白质溶剂可及性表面相比较的方式计算出位于蛋白质口袋区域的原子,并通过K-means聚类方法将这些原子分成7个簇作为候选的活性位点。其次,将这些候选位点按照其体积进行排序,体积最大的前四者被保留,按照平均序列保守性分值进行进一步的排序。最后,在这些预测得的活性位点中,最保守的三个候选位点就是本文中得出的蛋白质活性位点。 为了验证ConHull算法的有效性,我们将它和其他三个不同类型的预测工具进行比较,分别是LIGSITEcs,PASS和SURFNET,并采用210个经典的非冗余的蛋白配体复合物作为测试数据集。在我们算法中,总预测成功率超过90%,并且高于其预测工具。从我们的算法可以知道,蛋白质活性位点预测不仅仅只是一个几何问题,每个口袋的空间大小,即体积在预测中确实是一个很重要的因素,但序列保守性分值的添加也可以增加预测的成功率。