论文部分内容阅读
随着人类基因组计划的完成,生物信息学,生物化学等领域的理论研究不断深入,药物发现的方法和技术也在不断更新。由于计算机处理信息的高效性,模式识别,机器学习等方法逐渐渗入到药物发现领域。计算机辅助药物设计(Computer-aided Drug Design,CADD)、高通量筛选、生物芯片等高新科技的发展和完善为药物发现提供了新的技术手段和有力工具,极大地拓宽了药物发现的途径。基于分子对接的虚拟筛选是计算机辅助药物设计的重要方法之一,因其较好的普适性,已被大多数机构和制药公司所认可。但同时,这种策略的准确度很大程度上依赖于打分函数的精度。从目前来看,一方面,对于打分函数的研究还受理论和方法的限制,因此目前仍没有一种完全正确的方法。另一方面,虚拟筛选过程中,非活性候选化合物数量所占比例更大,错误的对接构象会对实验结果造成影响,这是典型的失衡数据分类问题,数据集的失衡使得筛选结果更倾向于负类,从而降低了筛选结果的准确率。基于这个背景,本文提出基于失衡数据挖掘的虚拟筛选方法,将虚拟筛选技术与失衡数据分类方法相结合,对传统的虚拟筛选流程进行改进。首先,在传统的虚拟筛选过程中,由于打分函数的不准确性,分子对接构象会产生误判,导致先导化合物的筛选结果很低。为了解决这一问题,本文利用Pharm-IF交互指纹来编码分子对接构象,以此作为分类算法的输入,在替代打分函数的同时,用一维的交互指纹数据表示分子间交互作用,有利于对数据集进行采样和分类。其次,在实际的虚拟筛选过程中,非活性化合物的数量比例较高,大量的错误对接构象造成数据失衡。考虑到失衡数据的自身特点:数据分类面倾斜会导致数据淹没,少数类数据信息匮乏,采样后会导致有效信息损失等,这些因素都会降低先导化合物的筛选质量。为了解决上述问题,在数据层面采用基于密度聚类的簇边界采样方法,对数据进行处理,在降低失衡比的同时尽可能的保留了更多的有效信息,有助于提升分类器的泛化性能。在分类算法层面引入集成学习思想,通过多层迭代将多个弱分类器转化为强分类器,增强分类器的稳定性,改善了候选项集中错误对接结果对筛选结果的影响,优化了传统的虚拟筛选流程。最后,在实验构建与分析部分,本文采用PDB数据库和St ARLITe数据库中的相关数据所提出的方法进行验证。实验结果表明,本文提出的方法能够有效的提升虚拟筛选的准确率,对新药物的研制有着一定实际指导作用。