组合药物的机器学习预测方法构建及应用

来源 :华中农业大学 | 被引量 : 0次 | 上传用户:wangguoqiang123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
组合药物是制药工业中很有前途并且十分重要的研究领域。传统药物学遵循“一药一靶”的理念,但在使用单一药物治疗的过程中往往会出现耐药性和副作用,同时新靶点发现相当缓慢,这使得新药研发落后于市场需求。由于生物体本身的复杂性,也使得复杂疾病在单一药物的作用下收效甚微。药物的联合使用是经过FDA认证的一种常用疗法,已有许多实例表明组合药物对复杂疾病有着良好的疗效,能够起到“增效减毒”的作用。传统的组合药物发现依赖于大规模的生物学实验,消耗大,效率低。近年来高通量测序数据的积累与机器学习算法的发展为计算药物模型在药物研发中的应用奠定了数据与理论基础。然而,目前的计算方法一般只使用部分数据,未充分利用积累的多组学数据,这也使得许多计算结果的可靠性较低。本研究从Drug Bank、Therapeutic Target Database(TTD)和The Drug Gene Interaction Database(DGIdb)等数据库收集了药物与靶标和适应症数据,同时从Connectivity Map(CMap)收集了经过1309个药物小分子处理的基因表达谱数据,组合药物数据来源于Drug Combination Database(DCDB)和Pre DC数据库。首先使用双聚类算法将CMap中1309个药物小分子聚类,然后将CMap药物与Drug Bank、TTD和DGIdb三个数据库的药物取交集。通过Pub Chem工具计算药物的化学结构相似性,再通过收集的药物数据计算药物两两之间的Tanimoto系数。将Tanimoto系数作为参数使用支持向量机、朴素贝叶斯和逻辑回归构建不同正负样本比例下的组合药物预测模型,并筛选出支持向量机作为最佳模型。然后,利用近邻推荐算法构建五种相似性模型并使用逻辑回归作为集成学习算法构建集成模型并进行特征筛选。发现使用药物靶标相似性、药物适应症相似性、药物化学结构相似性和药物表达谱相似性构建的集成模型AUROC值为0.89,AUPR值为0.383。将筛选的集成模型与支持向量机模型进行比较发现,前者具有更好的预测效果。将所用的集成方法应用到已发表的数据集上,取得了优于原文章的结果。最后,将最优模型运用到紫杉醇的组合药物预测中,预测的药物组合经初步实验证明具有较好的组合增效效果。综上所述,本研究建立的组合药物预测集成模型方法鲁棒性较强,预测结果得到初步实验验证,对组合药物的筛选具有潜在的应用价值。
其他文献
作为汉语中使用频率最高的副词之一,“就”的多义性一直受到了语言学家的广泛关注。本文旨在讨论副词“就”不同语义的产生过程。副词“就”的语义比较复杂。语言学家们普遍认为,副词“就”拥有固定的核心义;其核心义与不同的语言环境相互作用,从而衍生出不同的意义。但是,现有的研究并未在核心义及语义衍生机制上达成一致。作者经过查阅相关资料,猜想副词“就”的不同句法位置影响了核心义的具体诠释,并最终衍生出了不同的语
老龄化已经成为目前全球各国面对的重要课题,而我国的老龄化程度在全球也同样名列前茅。如何能让老年人老有所医、老有所养是当前社会发展的重中之重,也是国家和个人将要解决的重大问题。医养结合养老模式正是在这种背景条件下应运而生,并因符合我国国情和百姓的需要而飞速发展起来。正因为医养结合处于发展和磨合期,所产生的诸多问题没有得到妥善的解决,尽管通过多年试点工作在医养结合养老服务方面取得了一定成效,但总体上仍
池州自然环境优越,除了有利于茶树生长,其优美的生态条件也适宜发展旅游业,茶产业三产融合大势所趋。池州市立足地方资源特色,将"一、二、三产"融合发展,不仅从茶园和加工厂
目的:肾癌是全球十大最常见的癌症之一,其中75-80%的患者是肾透明细胞癌(clear cell renal cell carcinoma,ccRCC),肾透明细胞癌患者具有最高的死亡率和转移率,并且大部分肾
疑问句是汉语中的四大基本句型之一,承担着询问和确认信息的重要作用,受到了汉语语言学家的广泛关注。继Rizzi(1997)提出“CP分裂”假说以来,汉语疑问句研究从在位疑问词逐渐
近些年,我国性侵儿童案件频繁发生,这不仅会使被性侵儿童的身体和精神承受双重的伤害,也会对其家庭乃至社会产生严重的负面影响。我国现行刑法规定了强奸罪、猥亵儿童罪、引诱幼女卖淫罪等罪名,对性侵儿童的犯罪行为进行规制。但随着性观念的日益开放,实践中性侵儿童的行为方式也呈现多元的样态,刑法的既有规定在规制性侵儿童犯罪方面显得捉襟见肘。出于保护儿童利益最大化的需要,刑法应当与时俱进,不断强化对儿童性权利的保
人血浆中含有约20种蛋白,其中大部分是白蛋白(35~40 mg/mL),免疫球蛋白的浓度约为8~12 mg/mL。血液中的免疫球蛋白分为IgG、IgA、IgM、IgD及IgE,前3者占比分别约为75%、15%、10
功能影像学从病理生理学角度研究发现,抑郁症患者与正常人相比在皮质区域和边缘系统存在功能紊乱.然而,很少有研究涉及抑郁症患者在全局效率和局部效率方面的变化.近年来随着
通榆县是国家扶贫开发工作的重点县,也是我国著名的“杂粮杂豆之乡”,从“资源多、信息少、无市场”再到全国电子商务示范县,通榆县创造了属于自己的经验模式,但近几年再次搜索有关通榆县的电商网店,APP无法找到、网店无购买量、旗舰店下架的情况比比皆是,“通榆模式”的疲态一目了然。同时电商扶贫作为新兴扶贫产业,影响因素较多,其未来的发展方向、发展模式也存在很多不确定性,在进入市场时,必然需要一双“有形的手”
特色小城镇建设是党中央、国务院着眼新型城镇化建设提出的重大战略思路,有利于推动地方经济转型升级和发展的动能转换,促进大中小城市和小城镇协调发展,有利于培育发展新产