论文部分内容阅读
磷脂酶A2是与炎症密切相关的花生四烯酸代谢网络中的上游酶,人类非胰腺分泌型磷脂酶A2(hnps-PLA2)属于GIIA型磷脂酶A2(GIIA sPLA2),是磷脂酶A2大家族中的一员,它与类风湿性关节炎、牛皮癣、节段性回肠炎、胰腺炎等多种炎症以及动脉粥样硬化、急性冠状动脉综合症等一些心血管疾病相关。论文以GIIA型磷脂酶A2的抑制剂为研究对象,采用多种机器学习算法,分别进行了该类抑制剂活性高低的分类研究、活性值的定量回归研究、以及基于该类抑制剂的新分子设计。上述几个部分的研究工作如下:(1)构建了 GIIA sPLA2抑制剂的活性高低分类模型。收集了 491个有效的GIIA sPLA2抑制剂,以1.6 μM的IC50阈值,将所有化合物分为高活性和低活性抑制剂,用452个化合物(训练集312个,验证集140个)进行了分类建模,用39个化合物作为外部测试集对模型的泛化能力进行了测试。使用了 CORINA、MACCS指纹、ECFP4指纹三种描述符来表征化合物结构,应用了支持向量机(SVM)、决策树(DT)和随机森林(RF)三种算法,构建了 192个模型,其中有两个模型在验证集和外部测试集中的预测表现都很出色,验证集准确率(Q)最高达90.00%,马修斯相关系数(MCC)最高达0.79,外部测试集的准确率最高达94.87%,MCC最高达0.90。还用K均值(K-Means)算法将452个化合物分成了八个小类,然后对每个小类的结构特点进行归纳总结,发现了可能对GIIA sPLA2的抑制活性有很强贡献的两个侧链基团。(2)构建了 GIIA sPLA2抑制剂活性值的定量回归模型。收集了 296个带有显色法测定IC50值的GIIA sPLA2抑制剂,选用了 CORINA和RDKit 2D描述符来对化合物进行表征,随机划分了三组训练集和测试集,应用支持向量机(SVM)、随机森林(RF)、多层感知机(MLP)三种算法构建了 42个回归模型,按分组评价的模型精准度与稳健性结果选出了选出了两个表现出色的模型,其中最优模型的测试集预测结果决定系数(R2)为0.813,均方误差(MSE)为0.275。分析了模型所使用的描述符后,发现几个重要的描述符所表征的基团与GIIA sPLA2晶体结构(1DB5)中所展示的相互作用情况基本吻合。(3)利用骨架跃迁的方法设计了一批新的分子。从537个已收集的GIIA sPLA2抑制剂出发,从中筛选出所有吲哚和吲嗪类化合物,用分子切割的方法从吲哚和吲嗪类化合物获取支链结构原材料,从DrugBank数据库获取骨架结构原材料,通过ROCS形状相似性比对和EON静电相似性比对选择合适的五并六元芳香环骨架,然后采用分子拼接的方式产生了3586个新分子。通过活性预测、类药性、合成可及性、不良子结构匹配以及药代动力学和专利排除等各方面的筛选,获得了两个在各方面都表现良好的化合物,这两个化合物很有可能成为有效的先导化合物,可以进入到下一阶段有机合成和活性测定的研究。