论文部分内容阅读
蛋白质三维结构预测是当前生物信息学的研究热点之一。以已知蛋白质结构为模板的同源建模(Homology Modeling)算法被认为是当前最成功的蛋白质结构预测算法。但是能够作为模板的蛋白质结构数量较少以及同结构模板序列比对的精度严重制约了同源建模算法的实际应用。针对这一问题,我们提出了基于结构域聚类的同源建模预测研究方案,首先对蛋白质序列进行同源聚类,然后构建基于结构域聚类的蛋白质模板数据库,并提出了基于结构固定的目标-模板序列比对算法,显著提高了目标-模板序列比对的精度。在此基础上,针对含有多结构域的蛋白质序列无法找到合适模板的问题,我们提出了一种结构域模板融合的方法,显著提高了蛋白质结构预测的精度,有效弥补了“结构模板数量不足”的缺陷。本文的主要工作包括如下几个方面:1、提出了一种基于结构域相似性的蛋白质同源聚类算法。我们首先对蛋白质序列进行相似性比较分析,根据序列之间的相似性程度构建相似性矩阵,在此基础上,利用蛋白质结构域以及结构域的构成顺序,对相似性矩阵进行过滤,剔除其中相似性较低的比对,然后利用图来描述剩余相似性关系。最后采用马尔科夫图流算法对上述相似性图进行聚类处理,实验表明,该方法可以快速、准确的聚类orthologs和paralogs。2、构建了一种基于结构域聚类的蛋白质模板数据库。基于各种结构域家族数据库,及InterPro数据库和PDB数据库的相互对应关系,从PDB数据库中提取各个结构域的三维结构数据。然后对结构域进行聚类分析,并构建以结构域聚类为基础的模板数据库。在此基础上,提出了一种结构固定的序列比对算法(structure-anchored alignment),以生成最优的目标-模板序列比对。初步的实验结果显示,采用我们的方法,可以更精确得预测出更多的蛋白质结构。3、提出了一种结构域融合策略。针对无法在现有数据库中找到模板的蛋白质(如多结构域蛋白)序列,我们首先对蛋白质序列进行结构域映射分解,然后基于各结构域的核心结构预测出结构域片段序列的三维结构,最后通过这些中间预测结构进行融合与优化,得到最终的蛋白质三维预测结构。实验表明,当无法找到高重合率的结构模板时,该方法得到更高精度的预测结构。