论文部分内容阅读
化合物的熔点是其基本物理特性之一,对于有机化合物,在一定条件下有固定的熔点,它主要受分子内和分子间相互作用的影响。根据对熔点的检测可以辨认物质的本性,也可以用于测定物质的纯度。一般研究人员会通过实验的方法来获取有机化合物的熔点,或者根据某些经验方法予以估算。但对于某些有机化合物,现有的实验方法不足以测定它的熔点,因此,采用定量构效关系对有机化合物熔点的预测显得很有必要。另外,该方法可在一定程度上节约人力、经济及时间成本。定量构效关系在熔点上的研究已经取得了很多成果,选择不同的描述符,并采用不同的建模方法获得了合理的结论。在以上研究的基础上,本文扩展了对熔点的QSPR研究方法,主要研究工作包括以下几个方面。(1)本论文选择了两组数据,第一组数据是只含有C、H、O三种元素的有机酸,第二组是药物类化合物,该类化合物多数为脂类化合物,部分为酮类化合物和酰胺类化合物。两组数据均是结构较为复杂的非同系物。(2)采用ADMEWORKS ModelBuilder软件分别对两组数据进行描述符的计算和选择,然后以熔点为因变量、描述符为自变量进行定量构效关系的研究。先用稳健诊断方法(Robust Diagnostic Method)对样本进行奇异值的筛选并剔除。然后采用三种模式识别方法(K-最近邻、K-均值聚类和投影寻踪)对剩余样本进行分类。(3)在未分类样本和分类后样本中分别随机选取20%左右的样本作为外部测试集,然后将剩余样本用球型排除算法(Sphere-exclusion Algrithms)分为训练集、内部测试集。最后再采用建模方法——多元线性回归(Multiple Linear Regression)、偏最小二乘(Partial Least Squares)、人工神经网络(Artificial Neural Network)对训练集、内部测试集和外部测试集的熔点进行建模预测。(4)计算结构相似度,探究相似度对建模预测结果的影响。(5)根据误差公式计算预测值与实验值之间的误差。研究结果表明,三种模式识别方法,均可以不同程度地提高建模预测效果。从相似度的计算结果可以看出,模型的预测能力不仅与结构相似度有关,还与建模方法有关。对于三种建模方法,ANN的预测结果要优于MLR、PLS,即非线性模型的预测能力要优于线性模型。