论文部分内容阅读
深度学习作为一种新兴的机器学习算法,凭借其强大的数据处理和特征学习能力,在图像识别、语音识别、自然语言处理等诸多领域已得到广泛应用。近年来,深度学习在分子活性/功能预测与全新设计领域也取得了一些开创性研究成果,但相关理论和应用研究仍处于起步阶段。论文以深度学习中最具代表性的卷积神经网络(Convolutional Neural Network,CNN)和循环神经网络(Recurrent Neural Network,RNN)为主要研究方法,根据两种算法优势和特点,分别对化合物ADMET性质预测以及全新分子设计进行了初步探索性研究。主要研究内容与结果如下:
①化合物ADMET性质预测研究。采用传统机器学习算法进行化合物活性/功能预测研究中,常以多种分子描述符为模型输入,同时需借助变量筛选技术剔除冗余结构信息。借助CNN强大的特征自动提取与筛选优势,论文以化合物2D结构图像为模型输入,分别对细胞色素P450(CYP1A2,2C9,2C19,2D6,3A4)抑制活性、P-糖蛋白(P-glycoprotein,P-gp)抑制活性、血脑屏障(Blood-brain Barrier,BBB)通透性和Ames致突变毒性进行了预测研究,并采用数据增强技术处理不平衡训练集样本,同时采用L2正则化、Dropout和Early stopping等策略来控制模型的过拟合。研究结果显示:以上8个体系的CNN模型外部预测准确性(Accuracy,ACC)分别为0.722,0.725,0.717,0.763,0.721,0.787,0.755和0.913。与传统机器学习模型相比,论文建立的CNN模型具有分子特征自动提取与筛选、不依赖分子三维结构、预测方法简便等诸多特点,尤其适用于高通量分子活性与功能预测研究。
②解整合素金属蛋白酶10(A disintegrin and metalloprotease10,ADAM10)抑制剂分子全新设计。论文基于化合物SMILES序列,采用基于GRU(Gated Recurrent Unit)的循环神经网络和迁移学习算法(Transfer Learning),成功建立了ADAM10抑制剂分子自动生成模型。研究结果显示:基于GRU的RNN模型对ChEMBL数据库中1128920个分子SMILES序列进行预训练后,可有效掌握分子SMILES字符串的格式规范与语法,其有效分子的生成比例可达到97%以上。在此基础上,采用2082个ADAM10抑制剂分子对GRU-RNN预训练模型进行迁移学习。回顾性研究结果显示:经随机采样生成500000样本后,模型对测试集ADAM10抑制剂的召回率(Recall)最高可达到27.79%。经Lipinski五规则筛选,论文对GRU-RNN模型生成的1465个阳性分子进行了Surflex-dock分子对接研究,并得到了211个具有潜在ADAM10抑制活性的目标分子。与传统计算机辅助药物设计方法相比,论文GRU-RNN分子生成模型具有操作简便、分子采样快速、分子生成有效性高等特点,可为今后智能化药物设计研究提供重要的参考资料。
总的来说,论文初步探索了深度学习方法与技术在化合物ADMET性质预测以及分子设计领域中的应用,并取得了较为满意的研究结果。然而,受限于现有样本数据容量,深度学习的技术优势还远远没有得到最大程度的发挥,相信在不久的将来,深度学习在生物/化学/药物信息学以及智能化药物设计领域的强大技术优势将最终得以显现。
①化合物ADMET性质预测研究。采用传统机器学习算法进行化合物活性/功能预测研究中,常以多种分子描述符为模型输入,同时需借助变量筛选技术剔除冗余结构信息。借助CNN强大的特征自动提取与筛选优势,论文以化合物2D结构图像为模型输入,分别对细胞色素P450(CYP1A2,2C9,2C19,2D6,3A4)抑制活性、P-糖蛋白(P-glycoprotein,P-gp)抑制活性、血脑屏障(Blood-brain Barrier,BBB)通透性和Ames致突变毒性进行了预测研究,并采用数据增强技术处理不平衡训练集样本,同时采用L2正则化、Dropout和Early stopping等策略来控制模型的过拟合。研究结果显示:以上8个体系的CNN模型外部预测准确性(Accuracy,ACC)分别为0.722,0.725,0.717,0.763,0.721,0.787,0.755和0.913。与传统机器学习模型相比,论文建立的CNN模型具有分子特征自动提取与筛选、不依赖分子三维结构、预测方法简便等诸多特点,尤其适用于高通量分子活性与功能预测研究。
②解整合素金属蛋白酶10(A disintegrin and metalloprotease10,ADAM10)抑制剂分子全新设计。论文基于化合物SMILES序列,采用基于GRU(Gated Recurrent Unit)的循环神经网络和迁移学习算法(Transfer Learning),成功建立了ADAM10抑制剂分子自动生成模型。研究结果显示:基于GRU的RNN模型对ChEMBL数据库中1128920个分子SMILES序列进行预训练后,可有效掌握分子SMILES字符串的格式规范与语法,其有效分子的生成比例可达到97%以上。在此基础上,采用2082个ADAM10抑制剂分子对GRU-RNN预训练模型进行迁移学习。回顾性研究结果显示:经随机采样生成500000样本后,模型对测试集ADAM10抑制剂的召回率(Recall)最高可达到27.79%。经Lipinski五规则筛选,论文对GRU-RNN模型生成的1465个阳性分子进行了Surflex-dock分子对接研究,并得到了211个具有潜在ADAM10抑制活性的目标分子。与传统计算机辅助药物设计方法相比,论文GRU-RNN分子生成模型具有操作简便、分子采样快速、分子生成有效性高等特点,可为今后智能化药物设计研究提供重要的参考资料。
总的来说,论文初步探索了深度学习方法与技术在化合物ADMET性质预测以及分子设计领域中的应用,并取得了较为满意的研究结果。然而,受限于现有样本数据容量,深度学习的技术优势还远远没有得到最大程度的发挥,相信在不久的将来,深度学习在生物/化学/药物信息学以及智能化药物设计领域的强大技术优势将最终得以显现。