论文部分内容阅读
蛋白质三维结构预测是目前国际生物信息学领域最热门且最富挑战性的课题之一,现有的方法总体上可分为基于模板和无模板两大类。基于模板的结构预测需要有已知的蛋白质结构为支撑,通过序列或结构的相似性为目标蛋白质找出最恰当的结构模板,进而以模板为基础预测目标蛋白质的结构。无模板的结构预测则是通过探索和利用蛋白质折叠中的理化规律,直接由序列预测蛋白质的三维结构。后一方法的理论意义更突出,被西方学者喻为计算生物学研究的“圣杯”。对于无模板的结构预测,能量函数的设计构建是整个工作的基础和核心。根据有无使用已知的蛋白质结构信息,能晕函数也可分为基于知识和基于物理两类。
本文详细讨论了一种基于知识的能量函数,即基于原子对距离分布的统计势,并将注意力集中在参考态上。主要研究内容及成果包括:⑴统计势设计的关键在于采用怎样的参考态假设,通过广泛调查研究,本文挑选了取平均、准化学近似、有限理想气体、球域无相互作用、原子洗牌、无规行走链等6个最有效的参考态假设,对它们的特点和差异进行了深入分析和讨论,并着重阐述了各自的优点与不足。⑵从蛋白质结构数据库(PDB)挑选出1022个非同源的蛋白质晶体学结构,以之为统计样本,采用不同的参考态假设且尽量保持其他条件一致,成功构建起6个基于原子对距离分布的统计势,随后进行了作图比较,结果显示各统计势大体的走向趋于一致,细小的分布差异将决定了它们的性能特征。⑶将统计势应用到各类构象集中进行性能检验,结果发现不同的构象集中统计势的排名并不一致,即统计势对于具体的应用环境存在偏向性,这更是一种启发,或许可以在设计之初便考虑统计势应用范围的针对性,而不是要求其放之四海而皆准。虽然统计势在天然构象选取方面表现不逊,但是在decoy构象排序方面的结果表明,相关统计势的区分能力仍有进一步提升的空间。