基于机器学习技术的药物虚拟筛选方法研究

来源 :西南大学 | 被引量 : 1次 | 上传用户:caohuyue
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为药物研发的起点,苗头化合物的发现对整个研发过程至关重要。虚拟筛选是苗头化合物发现中的一项重要技术,它利用计算机从海量化合物中快速筛选出特定靶标的候选活性分子,大幅减少在生物化学实验阶段受试化合物数量。随着越来越多的蛋白晶体三维结构被解析,苗头化合物发现研究中基于结构的虚拟筛选方法显示出越来越明显的优势。基于结构的虚拟筛选方法依赖分子对接技术。然而,现有分子对接理论本身存在诸多缺陷,并且众多的对接程序性能各异,仅使用分子对接程序的对接及评分功能对化合物进行排序和筛选,在实际使用中往往无法达到稳定且较好的效果。因此,优化分子对接程序、制定筛选方案对提高基于结构的虚拟筛选方法的成功率具有极其重要的意义。本研究利用机器学习技术对虚拟筛选方案进行优化,从三个方面共同提升苗头化合物发现的成功率和效率。一是改进分子对接方法,模拟小分子和靶标蛋白的结合构象;二是建立化合物活性分类方法,预测小分子的活性,针对模拟出的小分子构象进行初步筛选;三是构建蛋白质-配体结合亲和力预测模型,用于预测初步筛选出的小分子与靶标蛋白的结合强度,进行精细筛选。对此三个方面,本文的主要研究工作如下:1.提出一种基于烟花算法的构象搜索方法。首先明确分子对接中构象搜索过程的优化问题表示;其次,设计了烟花算法应用在分子对接问题上的核心策略,如爆炸算子、变异算子以及烟花选择策略等;再次,根据文化基因算法理论,将烟花算法与BFGS拟牛顿搜索算法相结合,利用烟花算法作为全局优化器在搜索空间中快速定位有希望的区域,BFGS拟牛顿搜索算法在局部进行精细搜索,从而加快收敛速度,以及增加找到最优解的机会;最后,将该方法在Autodock Vina的框架上予以实现,编写了分子对接程序FWAVina,并且在标准测试数据集上对FWAVina进行测试,结果显示,与经典对接程序Autodock Vina相比,FWAVina具有更快的收敛速度及更高的分子对接准确性。2.提出一种基于集成学习技术及Spark平台的化合物活性分类方法ENS-VS。首先,通过集成学习技术将蛋白质-配体相互作用特征和配体结构特征进行特征融合,集成支持向量机、朴素贝叶斯及决策树三种分类算法,提高该方法在不同靶标蛋白上的适用性及稳定性,同时解决活性化合物与非活性化合物样本数量严重不平衡的问题。其次,在Spark平台上实现本方法的并行加速,提高从海量化合物中进行活性化合物筛选的执行效率。最后,基于DUD-E标准数据库分别构建蛋白家族特异性模型、靶标特异性模型与通用模型,总结出模型适用标准:当靶标已知的活性化合物较多时,宜采用靶标特异性模型;当靶标已知的活性化合物较少时,宜采用蛋白家族特异性模型;当出现新的靶标蛋白时可采用通用模型。实验结果表明,对比经典的分子对接程序,ENS-VS方法能有效提高活性化合物筛选的命中率,并且ENS-VS方法可以与任意分子对接程序联合使用。3.提出一种基于图注意力网络的蛋白质-配体结合亲和力预测模型ComplexNet。首先,采用图论中的图结构来表示分子结构数据,旨在从原子水平上自动学习特征。其次,本研究在图注意力网络的基础上做出如下改进:一是在图注意力网络中设计了节点动态特征机制,将边信息动态加入节点特征,每个节点特征随聚合节点的不同而动态变化,解决图注意力网络无法处理边信息的问题;二是引入虚拟超级节点作为图级特征聚合机制,将节点级特征表示转换为图级特征表示,使该网络模型能用于图级的预测问题。再次,模型中引入隐层参数硬共享的多任务学习机制,以配体诱铒构象与晶体三维结构的均方根距离(RMSD)预测作为辅助任务,扩大数据集,以提高Complex-Net的泛化性能。最后,采用四种方案对模型性能进行测试,结果表明,在四种方案中Complex-Net预测结果的Pearson相关系数和Spearman相关系数两个指标均优于基准方法RF-Score及基于卷积神网络的代表方法Pafnucy。本文利用机器学习技术改进分子对接程序、建立化合物活性分类方法以及蛋白质-配体亲和力预测模型,从配体结合构象预测、初步筛选和精细筛选三个方面共同提升药物虚拟筛选方法性能。
其他文献
作为表情达意的工具,语言文字具有强烈的思想性。因此,在小学语文教学中渗透德育具有先天的优势。一、以文本人物的人格魅力去感染学生在语文教材中,有为民族大义而牺牲自我的志
作为语文教学的重要组成部分,阅读教学的好坏直接反映语文教学的质量,决定学生的语文素养。而阅读作为人类特有的一种心智活动,其本质是理解与对话,是发现与建构,是阅读主体的创造。《语文課程标准》也明确提出,“阅读教学是学生、教师、文本之间对话的过程”,“阅读是学生的个性化行为”,“要珍视学生独特的感受、体验和理解”等。在阅读教学中,我们无疑应更关注学生的主体地位,激发学生的主动精神,追求阅读主体的个性和
中职营销专业学生具有其特殊性,如何培养他们的专业意识即商业意识显得非常重要。笔者就自己的尝试做了归纳,供大家参考。培养途径有五:“逛”商场、评商品,玩网络、促学习,看报纸
通过对8种常用类型防霾口罩的实验测试,采用回归曲线分析方法得出了防霾口罩呼吸阻力随使用时间的变化函数形式,同时也通过实验数据统计给出了各种类型口罩的建议使用时长,建
英语单词是英语学习的基础,每个小小的英语单词结合起来就组成了句子,多个句子构成整篇文章,而如何更好更快地记住英语单词一直困扰着英语教师和学英语的学生们。那么,用什么样的方法才可以记住更多的英语单词呢?  单词记忆的第一要诀是正确的读音,只有牢牢地记住48个音标,才能正确地把单词读出来,才能开始进行单词的记忆。音标是英语学习的根本,记不住或记不准音标就去记忆单词那是舍本逐末。  对于初学者最好的记忆
1971年著名学者J.W.Tukey在他的开拓性论文中提出了中值滤波的概念并用作时间序列平滑.中值滤波一出现就因其具有对尖脉冲的良好抑制能力及在平滑加性噪声时能保持信号的边缘特
目的 明确临床分离的21株铜绿假单胞菌耐药性及氨基糖苷类修饰酶(AMEs)基因存在状况。方法 采用微量肉汤法测定临床分离的21株铜绿假单胞菌对15种抗菌药物的敏感性,采用聚合酶链
慢性湿疹是皮肤科临床常见的变态反应性疾病,它使皮肤发生炎症,患者感到瘙痒难忍并久治不愈容易复发。本文探讨了肝脾二脏与慢性湿疹病因病机的关系,阐述了健脾除湿是治疗慢