论文部分内容阅读
作为药物研发的起点,苗头化合物的发现对整个研发过程至关重要。虚拟筛选是苗头化合物发现中的一项重要技术,它利用计算机从海量化合物中快速筛选出特定靶标的候选活性分子,大幅减少在生物化学实验阶段受试化合物数量。随着越来越多的蛋白晶体三维结构被解析,苗头化合物发现研究中基于结构的虚拟筛选方法显示出越来越明显的优势。基于结构的虚拟筛选方法依赖分子对接技术。然而,现有分子对接理论本身存在诸多缺陷,并且众多的对接程序性能各异,仅使用分子对接程序的对接及评分功能对化合物进行排序和筛选,在实际使用中往往无法达到稳定且较好的效果。因此,优化分子对接程序、制定筛选方案对提高基于结构的虚拟筛选方法的成功率具有极其重要的意义。本研究利用机器学习技术对虚拟筛选方案进行优化,从三个方面共同提升苗头化合物发现的成功率和效率。一是改进分子对接方法,模拟小分子和靶标蛋白的结合构象;二是建立化合物活性分类方法,预测小分子的活性,针对模拟出的小分子构象进行初步筛选;三是构建蛋白质-配体结合亲和力预测模型,用于预测初步筛选出的小分子与靶标蛋白的结合强度,进行精细筛选。对此三个方面,本文的主要研究工作如下:1.提出一种基于烟花算法的构象搜索方法。首先明确分子对接中构象搜索过程的优化问题表示;其次,设计了烟花算法应用在分子对接问题上的核心策略,如爆炸算子、变异算子以及烟花选择策略等;再次,根据文化基因算法理论,将烟花算法与BFGS拟牛顿搜索算法相结合,利用烟花算法作为全局优化器在搜索空间中快速定位有希望的区域,BFGS拟牛顿搜索算法在局部进行精细搜索,从而加快收敛速度,以及增加找到最优解的机会;最后,将该方法在Autodock Vina的框架上予以实现,编写了分子对接程序FWAVina,并且在标准测试数据集上对FWAVina进行测试,结果显示,与经典对接程序Autodock Vina相比,FWAVina具有更快的收敛速度及更高的分子对接准确性。2.提出一种基于集成学习技术及Spark平台的化合物活性分类方法ENS-VS。首先,通过集成学习技术将蛋白质-配体相互作用特征和配体结构特征进行特征融合,集成支持向量机、朴素贝叶斯及决策树三种分类算法,提高该方法在不同靶标蛋白上的适用性及稳定性,同时解决活性化合物与非活性化合物样本数量严重不平衡的问题。其次,在Spark平台上实现本方法的并行加速,提高从海量化合物中进行活性化合物筛选的执行效率。最后,基于DUD-E标准数据库分别构建蛋白家族特异性模型、靶标特异性模型与通用模型,总结出模型适用标准:当靶标已知的活性化合物较多时,宜采用靶标特异性模型;当靶标已知的活性化合物较少时,宜采用蛋白家族特异性模型;当出现新的靶标蛋白时可采用通用模型。实验结果表明,对比经典的分子对接程序,ENS-VS方法能有效提高活性化合物筛选的命中率,并且ENS-VS方法可以与任意分子对接程序联合使用。3.提出一种基于图注意力网络的蛋白质-配体结合亲和力预测模型ComplexNet。首先,采用图论中的图结构来表示分子结构数据,旨在从原子水平上自动学习特征。其次,本研究在图注意力网络的基础上做出如下改进:一是在图注意力网络中设计了节点动态特征机制,将边信息动态加入节点特征,每个节点特征随聚合节点的不同而动态变化,解决图注意力网络无法处理边信息的问题;二是引入虚拟超级节点作为图级特征聚合机制,将节点级特征表示转换为图级特征表示,使该网络模型能用于图级的预测问题。再次,模型中引入隐层参数硬共享的多任务学习机制,以配体诱铒构象与晶体三维结构的均方根距离(RMSD)预测作为辅助任务,扩大数据集,以提高Complex-Net的泛化性能。最后,采用四种方案对模型性能进行测试,结果表明,在四种方案中Complex-Net预测结果的Pearson相关系数和Spearman相关系数两个指标均优于基准方法RF-Score及基于卷积神网络的代表方法Pafnucy。本文利用机器学习技术改进分子对接程序、建立化合物活性分类方法以及蛋白质-配体亲和力预测模型,从配体结合构象预测、初步筛选和精细筛选三个方面共同提升药物虚拟筛选方法性能。