论文部分内容阅读
蛋白质的对接广泛存在于生命活动中,是十分重要的分子生物学问题。在细胞内,两个蛋白质分子要在拥挤的细胞环境中准确识别彼此,组装成复合大分子实现生物功能;在人体中,免疫系统可以通过配体受体相互结合识别外来蛋白质。研究蛋白质对接可以了解生物的化学过程,为研究新药提供理论依据。目前蛋白质对接问题正越来越多地受到人们关注。复合大分子的结构预测难以用传统实验方式解决:其分子量往往较大,难以通过NMR手段测得结构;大分子难以结晶,也难以运用X射线晶体学方法进行实验;对于复合蛋白,往往有一定的灵活度。目前,使用计算机模拟是预测蛋白质对接方式的主要途径。随着欧洲组织的CAPRI(相互作用预测竞赛)的开展,多种算法已经问世:如ZDOCK、Rosetta、等等。这些算法往往从物理相互作用,几何形状,基于经验的结合位点实验数据等出发,对新蛋白质结构进行预测、打分。其中,实验数据的引入会显著提升蛋白质对接算法的准确度,如SAXS-ATTRACT-DOCK,引入了小角散射的数据作为参考。X射线自由电子激光的问世使得我们有了新的方式解析蛋白质结构。它可以在常温不需要结晶的情况下对单个分子进行成像。单分子的取向未知,也可能在同一个实验中混合着同一个蛋白质的不同构象,实验获得的散射图一般信噪比较低。这些都为我们直接从散射图中获得结构信息带来了不少困难。在2014年对RNAi微海绵体取得了 17nm的2维分辨率,在2015年对病毒颗粒取得了 100nm的3维分辨率。但这个分辨率和传统的X射线晶体衍射和冷冻电镜单分子成像都相距甚远。我们提出一种基于原子建模和XFEL计算模拟的方法,研究蛋白质对接问题。由于目前实验方法的局限,还没有完整的单分子散射数据,因此我们利用计算模拟的方式进行方法研究。对于给定的蛋白质,我们由ZDOCK生成一组可能的预测结构,使用傅里叶变换的方法模拟出每个预测结构不同取向的散射图样,并和真实结构模拟出的XFEL结果进行对比。使用了基于像素间距离、径向函数、角度自相关函数打分函数对预测结构进行重新打分,找到和真实结构最接近的模型。我们得到的打分函数和预测结构相对真实结构的相似度有很高的相关性。我们进一步研究了不同打分函数的计算开销以及分子对称性对打分函数的影响。分析了分子取向未知的情况,考察了打分函数寻找实验分子真实取向的性能。此外,我们研究了多种分子构象混合在一起的情况,试图确认每一张散射图对应的分子构象。我们使用基于三种打分函数联合训练的k-近邻算法,只需要10000张散射图,我们就可以几乎完全分离出目标结构和与目标结构相差RMSD=0.61A的两种构象。这进一步说明了我们选择的打分函数具有高度的选择性,能够非常准确的描述蛋白质和蛋白质之间的相似度。基于这种方法,我们提出了一种迭代优化蛋白质结构分辨率的算法设想。最后,我们对算法进行了讨论。我们认为,基于分子建模及XFEL的算法对蛋白质对接问题性能良好,可以使用很少的散射图模拟得到令人满意的打分效果。可能会对未来解析复合大分子的XFEL数据有所帮助。