论文部分内容阅读
定量构效关系(Quantitative Structure-Activity Relationship,QSAR)已经成为药物研究者必不可少的一项工具。基于已知化合物的结构与活性数据构建的回归预测模型,可以预测未知化合物的活性,并指导药物分子的设计。本文采用Python语言,对QSAR的建模程序进行设计,以达到简化用户操作,既可以方便用户快速完成建模任务,也可以避免由于误操作产生错误的结果的目的。所得的QSAR建模程序,具有易于上手、自动高效、避免误操作和用户结果报告及相关图表可视化等特点,可以为药物设计研究者提高的工作效率,保障结果的准确性,为药物研发提供坚实的基础。基于LQTA-QSAR方法,设计编写了4D-QSAR程序QSAR-KING,以解决3D-QSAR中的构象对齐问题。使用动力学模拟产生化合物分子的构象集合文件,再进行描述符筛选和模型构建,以消除不同构象对模型的影响。QSAR-KING的程序设计与编写过程是程序运行环境设计、程序输入接口、GROMAC拓扑文件的生成、分子动力学模拟生成CEP文件、分子堆叠和描述符的生成;数据处理与建模包括经数据读取、截断与方差过滤、训练集与测试集划分、数据处理流水线、网格搜索确定超参数、描述符可视化和最终建模。所设计的QSAR-KING程序,简化用户操作,既可以方便用户快速完成建模任务,也可以避免由于误操作产生错误的结果。在使用者准备好文件后,该程序可完全自动化运行,运行结束后直接提供给用户结果报告及相关图表,还可以对三维空间中的描述符进行可视化。MIA-QSAR程序QSAR-QUEEN的设计编写是使用化合物的二维图片进行模型构建,通过读取每张化合物结构图片中的像素点值,建立一个高信噪比的2D-QSAR模型。QSAR-QUEEN的程序设计与编写过程包括:程序运行环境设计、程序输入接口和结构图片对齐,并自行设计使用图像矩阵最小均值误差算法自动对齐化合物结构图像;数据处理与建模包括数据读取与训练集测试集划分、描述符可视化和网格搜索与模型构建。QSAR-QUEEN程序设计的更为轻巧易用,可以在任何支持Python的操作系统(Windows、Linux、Mac OS)上快速自动构建模型。在程序运行结束后,提供报告与图表,所给出基团相关图,可指导药物研究者进行化合物结构设计及优化。在对数据集的实验过程中发现,将QSAR-QUEEN矩阵与QSAR-KING矩阵直接按列合并,生成新的大矩阵。对此数据矩阵,按照QSAR-KING的数据处理步骤进行操作,即由QSAR-ROYALTY程序执行,建立回归模型。QSAR-ROYALTY程序相当于将样本的描述符进行扩展,将以上两个程序生成的4D和MIA描述符还可以合并为一个矩阵,可以构建出一个超越两个单独模型性能的新模型。所设计的三款QSAR程序的运行性能的测试是选用Btk抑制剂药理活性数据集、ACh E抑制剂药理活性数据集以及GPb抑制剂药理活性数据集作为代表。QSAR-KING程序所得的QSAR模型在上述三个数据集上的表现优于QSAR-QUEEN的,这是由于数据集使用三维的静电场和立体场描述符可以更好的体现化合物之间的差异。但QSAR-QUEEN的优势在于,它几乎不产生任何额外的噪音信号,特别适用于某些数据集使用二维结构就能包含所有化合物之间差异的信息。QSAR-ROYALTY的QSAR模型预测效果明显优于单独使用QSAR-KING或QSAR-QUEEN模型的预测效果,因为它是从两者的全部信息中筛选出有价值的部分用于构建模型的。所的结果也验证了三款QSAR程序设计之初的目的。本文所设计的QSAR-QUEEN、QSAR-KING和QSAR-ROYALTY程序可以通过https://github.com/masgils下载,免费使用。