论文部分内容阅读
序列/结构一功能的关系问题是生命科学中的核心问题之一。蛋白质、DNA、RNA并没有丰富的构成元素,蛋白质仅由20种氨基酸组成,DNA、 RNA分别由4种类型的核苷酸组成,但其所有可能的序列却异常繁复,序列空间中的序列数随序列长度呈指数上升。极大的序列空间蕴含着无穷的可能性,使得生命活动以蛋白质、DNA、RNA等基础,呈现出复杂的调控机制和功能。作为人类对生命活动的调控,药物分子能够完成对疾病、繁殖等新陈代谢的调控,药物主要源自人工合成的化合物分子库。化合物分子库内丰富的化合物使得人类寻找具有特定性能的药物分子成为可能。因此,如何从生物相空间(蛋白质、DNA、RNA序列空间,药物分子空间等)寻找具有特定功能的分子是个非常重要的课题。本论文主要探讨如何利用计算机模拟方法对生物相空间进行搜索,分别是对RNA序列空间进行搜索得到具有特定小分子结合能力的适配体序列和对OGT蛋白酶在化合物分子库进行虚拟筛选和分子设计以获得其抑制剂。适配体是指一种能特异性地高强度识别靶标的短链DNA或RNA,其序列是通过指数富集的配体系统进化技术(SELEX),从人工合成的寡核苷酸序列库中筛选得到的。SELEX技术的发展使得SELEX的应用范围和效率获得极大提高,其靶标也从小分子,金属离子扩展到蛋白质、细胞等,但也有诸如耗时、低效等不足。概括地说SELEX方法面临初始序列库对筛选结果存在重大影响即如何设计初始序列库以提高适配体的发现概率,对序列空间的搜索比例极低,SELEX的工作机制不明确,如何优化已发现适配体等问题。我们提出SELEX in silico方法并在序列空间中以茶碱结合能力为目标进行适配体搜索。首先我们对序列空间内所有序列进行二级结构分析,发现大多数序列无法折叠成为目标二级结构,只有极少数的序列的最低自由能结构为目标二级结构。我们收集这些能够以较低的自由能垒形成目标二级结构的序列进行第二步虚拟筛选。在基于分子动力学的虚拟筛选过程中,我们不断延长模拟时间,依据RNA同茶碱的结合稳定性、氢键数目、结合自由能将决定序列是否进入下一轮的筛选中,经五轮筛选后得到六条同原始茶碱适配体具有相近结合自由能的新适配体。经过实验验证,S1同茶碱的结合能力为Kd=0.16μM,而原始茶碱适配体序列的Kd为0.32μM,这表明SELEX in silico方法成功地从序列空间中搜索得到具有茶碱结合能力的新适配体序列。在第二步虚拟筛选过程中,序列同茶碱结合能力不断增强,通过对序列比对分析,我们描述出针对茶碱结合的序列富集过程,揭示结合口袋周围不同碱基对茶碱结合的贡献,同时我们还发现几种全新的三碱基对。此外,我们还绘制出以茶碱结合能力为指标的fitness landscape并研究了fitness peaks间的演化路径。小分子数据库作为虚拟筛选的输入(Input),准确快速地搜索全构象空间和评价结合模式即Computational Docking/Scoring (Process),在虚拟筛选结果的基础上优化或设计药物分子(Output)是药物虚拟筛选的三部曲。提高药物虚拟筛选的效率和准确性一般都从这三方面考虑,即小分子库设计、对接方法改进和结合能力评价、虚拟筛选结果分析和后设计。FOG算法是在已批准药物分子数据库上进行片段训练和分析,得到各个片段间的链接概率,并依此进行分子优化和生长,最终产生具有类药性(druglikeness)的化合物库。为研究FOG库是否为优秀的虚拟筛选输入库,我们在OGT抑制剂筛选时对比FOG库和ZINC库,发现在XP对接阶段,FOG库包含更多具有更低docking score的化合物。同时FOG库中docking score较低的分子之间存在更多的新颖的化学片段,这为后续的药物设计提供新的工具。我们在ZINC库分子筛选结果分析的基础上进行ZINC库分子片段链接设计出新的分子并通过建立分子动力学和结合自由能计算来改进药物分子同OGT结合能力的评价方式。我们在分析OGT抑制剂的ZINC小分子数据库筛选数据库时发现基础化学片段存在明显地积聚现象,由此我们从片段积聚现象出现进行基于位置的片段聚类和片段组合连接以构成新的分子即基于片段集聚现象的聚类重组设计药物分子(Fragment Agglomeration Clustered Linkage)。以OGT为例,FACL设计的化学物其docking score为-14.59,已经较为接近UDP(-14.10),远优于从ZINC中的最好ZINC-32 (-11.49)。FACL算法能够从虚拟筛选结果的大数据出发得到各基础化学片段在结合口袋内的最概然位置,结合口袋对化学片段的选择性以及产生针对确定蛋白质结合口袋内环境的适应性分子库,设计出具有更好结合能力的先导化合物。