基于失衡数据分类模型的药物蛋白质虚拟筛选方法

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:zzw200512168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类基因组计划的完成,生物信息学,生物化学等领域的理论研究不断深入,药物发现的方法和技术也在不断更新。由于计算机处理信息的高效性,模式识别,机器学习等方法逐渐渗入到药物发现领域。计算机辅助药物设计(Computer-aided Drug Design,CADD)、高通量筛选、生物芯片等高新科技的发展和完善为药物发现提供了新的技术手段和有力工具,极大地拓宽了药物发现的途径。基于分子对接的虚拟筛选是计算机辅助药物设计的重要方法之一,因其较好的普适性,已被大多数机构和制药公司所认可。但同时,这种策略的准确度很大程度上依赖于打分函数的精度。从目前来看,一方面,对于打分函数的研究还受理论和方法的限制,因此目前仍没有一种完全正确的方法。另一方面,虚拟筛选过程中,非活性候选化合物数量所占比例更大,错误的对接构象会对实验结果造成影响,这是典型的失衡数据分类问题,数据集的失衡使得筛选结果更倾向于负类,从而降低了筛选结果的准确率。基于这个背景,本文提出基于失衡数据挖掘的虚拟筛选方法,将虚拟筛选技术与失衡数据分类方法相结合,对传统的虚拟筛选流程进行改进。首先,在传统的虚拟筛选过程中,由于打分函数的不准确性,分子对接构象会产生误判,导致先导化合物的筛选结果很低。为了解决这一问题,本文利用Pharm-IF交互指纹来编码分子对接构象,以此作为分类算法的输入,在替代打分函数的同时,用一维的交互指纹数据表示分子间交互作用,有利于对数据集进行采样和分类。其次,在实际的虚拟筛选过程中,非活性化合物的数量比例较高,大量的错误对接构象造成数据失衡。考虑到失衡数据的自身特点:数据分类面倾斜会导致数据淹没,少数类数据信息匮乏,采样后会导致有效信息损失等,这些因素都会降低先导化合物的筛选质量。为了解决上述问题,在数据层面采用基于密度聚类的簇边界采样方法,对数据进行处理,在降低失衡比的同时尽可能的保留了更多的有效信息,有助于提升分类器的泛化性能。在分类算法层面引入集成学习思想,通过多层迭代将多个弱分类器转化为强分类器,增强分类器的稳定性,改善了候选项集中错误对接结果对筛选结果的影响,优化了传统的虚拟筛选流程。最后,在实验构建与分析部分,本文采用PDB数据库和St ARLITe数据库中的相关数据所提出的方法进行验证。实验结果表明,本文提出的方法能够有效的提升虚拟筛选的准确率,对新药物的研制有着一定实际指导作用。
其他文献
设S是亏格为g≥2的闭黎曼曲面,ρ是S上的典范Bergman度量.本文以典范Bergman度量为工具,通过在全纯二次微分空间Q(S)上引入ρ-内积和ρ-范数,证明了赋范线性空间(Q(S),||·||
纤维素酶在生物医学,食品工业及化工业有着广泛的应用。其中嗜盐碱纤维素酶在较高浓度的盐碱环境下具有极好的稳定性及高盐碱反应活性,是一种具有工业应用前景的酶,这引起科
波动方程是一类重要的偏微分方程,它的数值方法研究具有重要的理论价值和实际意义。在求解波动方程的众多数值方法中,有限差分方法以其构造格式灵活简单、易于编程实现、理论
Copines基因,最初发现于草履虫,后续的研究发现了许多Copines同源基因,广泛存在于哺乳动物、线虫及拟南芥。然而我们对植物中Copines家族的作用却知之甚少,拟南芥中AtCPN1在
原子与电磁场相互作用是近年来理论研究的热门课题,这种相互作用会使系统出现奇特的现象。在传统的量子光学研究中往往假定原子与光场的相互作用比较弱,一般采用旋波近似和马
随着人类社会的发展,经济社会的发展对环境产生了更加深远的影响,导致环境问题日趋复杂。但与此相对的是人类社会对于风险管理、控制能力的不断增长,也就是说,人类社会已经进
大襟岛位于东经11°30′01″至11°30′03″,北纬21°50′01″至21°50′03″之间的洋面上,面积8.4平方公里,海拔379.1米,现属广东省台山市赤溪镇管辖。该岛被14个海湾所环绕
会议
三维测量技术因其智能化、便捷化和快速测量等特点,在工业生产、医疗、航天等诸多领域起到不可替代的作用。其中以相移法为代表的模拟编码光测量方法因具有高分辨率和高采样
月壤层含有丰富氦-3元素,对月壤的研究有利于更清楚的了解月壤中氦-3等资源的含量,对以后月球资源的开发和利用具有重要意义。要对月壤特性进行深入研究,首先必须了解影响月
类胡萝卜素(番茄红素,β-胡萝卜素,玉米黄质等)是一类具有重要实用意义的色素,商业上被用作食品着色剂,营养保健品,化妆品,药品等。巴氏杜氏藻(Dunaliella bardawil,简称巴氏