论文部分内容阅读
酚氧化酶(phenoloxidase,PO,EC.1.14.18.1),又称为酪氨酸酶,在昆虫正常发育过程中起到重要的生理作用,是发现新型杀虫剂的重要靶标。本研究利用多种机器学习算法,对昆虫酚氧化酶抑制剂的生物活性建立了定性分类和定量预测模型,并采用外部测试集对模型的预测效果进行了评价。本论文主要工作如下:第一部分是昆虫酚氧化酶抑制剂高低活性的定性分类研究。基于不同数据集和方法,构建了三种共9个昆虫酚氧化酶抑制剂的定性分类模型。第一种模型基于文献调研获取的65个昆虫酚氧化酶抑制剂数据,利用支持向量机和决策树两种算法,构建高活性抑制剂和低活性抑制剂的定性分类模型。由于昆虫酚氧化酶抑制剂数据较少,可能会导致模型泛化效果差。因此,第二种模型研究引入了 948个与昆虫酚氧化酶结构和性质较为相似蘑菇酪氨酸酶抑制剂作为辅助数据,拓展了原有数据集,并采用支持向量机、随机森林和反向传播神经网络,构建了6个预测模型,其中效果最好的是用支持向量机构建的模型,其训练集的预测准确率为89.15%,测试集的预测准确率为83.17%,马修斯系数为0.65,但在以最新发表的13个昆虫酚氧化酶抑制剂组成的外部测试集上,模型对高活性化合物的预测准确率不到10%。因此,研究构建第三种模型,采用迁移学习中的TrAdaBoost算法,在源数据(昆虫酚氧化酶抑制剂)所占比例不同的情况下构建定性分类模型,探索这一方法对提升模型预测效果的可行性,并且寻找适宜的数据集规模。研究表明,在源数据占比10%—30%时,外部测试集上的预测准确率明显提升,最高超过60%,说明迁移学习算法对模型改进非常有效。第二部分是昆虫酚氧化酶抑制剂生物活性的定量预测研究。研究基于65个昆虫酚氧化酶抑制剂数据,采用全局描述符、2D分子描述符和3D分子描述符的不同组合方式,并利用多元线性回归和支持向量机两种方式,构建了 6个定量预测模型。其中,选用三类描述符的组合构建的模型预测效果最好,其中利用多元线性回归方法构建的模型对训练集的相关性系数(r)是0.97,对测试集的r是0.93,支持向量机模型对训练集的r是0.96,对测试集的r是0.91。此外,研究以胡桃楸中的具有酚氧化酶抑制潜力的70个化合物为外部测试集,利用这两个模型进行活性预测,实现了模型的应用与测试。综上所述,本论文所构建的模型对昆虫酚氧化酶抑制剂的生物活性的定性分类和定量预测具有较好的预测能力,为研发新型植物源杀虫剂提供了支撑。