论文部分内容阅读
随着工业的不断发展,人类的环境受到相应的影响,其中人类健康成为关注的重点。在预测生物毒性方面科学家们也做了许多的研究。为了进一步了解生物毒性,减轻环境和生物的双重压力,节省金钱和时间的开销,采用定量构效关系研究化合物毒性显得尤为重要。目前,机器学习的方法被广泛应用于各行的软测量建模中,最常用的有管理的模式识别方法有K-最近邻(K-nearest neighbor,KNN)方法,常用的无管理的模式识别方法有K均值聚类方法。在建立模型的过程中,将模式识别方法与基于机器学习的建模方法相结合,对不同类别的化合物进行QSTR(Quantitative Structure-Toxicity Relationship)的研究。本论文主要分三大部分研究:(一)KNN与K均值模式识别方法对同系物化合物生物毒性的QSTR研究:基于选取了258个苯酚类化合物的生物毒性数据和263个芳香类化合物的生物毒性数据作为实验数据,分别通过软件ADMEWORKS Model Builder的计算,选出各自的结构描述符作为样本的结构参数,用稳健诊断方法剔除奇异样本,分别采用有监督的模式识别方法-K最近邻方法和无监督的模式识别方法-K均值聚类方法对剩余的样本数据进行分类,采用球型排除算法对得到的每一类进行验证集、测试集的划分,然后运用多元线性回归(Multiple Linear Regression,MLR)、偏最小二乘(Partial Least Square,PLS)和人工神经网络(Artificial Neural Networks,ANN)方法进行预测模型的建立。(二)KNN与K均值模式识别方法对非同系物化合物生物毒性的QSTR研究。本文从CPDB(Carcinogenic Potency Database)数据库收集筛选出共90个仅仅作用于小鼠的肝靶器官的活性致癌性信息作为研究样本,通过软件ADMEWORKS Model Builder的计算,选出3个结构描述符作为样本的结构参数,用稳健诊断方法剔除6个奇异样本,分别采用有监督的模式识别方法-K最近邻方法和无监督的模式识别方法-K均值聚类方法对剩余的样本数据进行分类,采用球型排除算法对得到的每一类进行验证集、测试集的划分,然后运用上述三种建模方法进行预测模型的建立。进而对非同系化合物的构效关系研究提供一定的研究方向。(三)运用模拟数据进行Q S T R的研究:通过运用公式模拟出253个数据样本,通过稳健诊断方法共剔除13个奇异样本。然后采用上述两种模式识别方法对其进行分类,然后用球型排除算法对各自分好的类别进行验证集、测试集的具体划分,然后采用上述三种建模方法进行模型的建立来进一步模拟同系化合物的QSTR研究。运用公式模拟出100个样本数据,结合前面剔除掉奇异值余下的240个样本共340个样本数据然后采用上述两种模式识别方法对其进行分类,采用球型排除算法对得到的每一类进行验证集、测试集的划分,然后采用上述三种建模方法进行模型的建立来进一步模拟非同系化合物的QSTR研究。通过采用模拟数值的方法对实验数值得到的结论进行进一步的验证。(四)利用结构相似度公式:,其中a,b表示两个样本结构描述符向量,(?),(?)表示向量范数。定义了建模样本的结构相似度,分别作用于上述三组实验数据集及其两组模拟数据集来探究建模样本的结构相似度对建模结果优劣的判断。(五)通过MLR、PLS和ANN建模方法分别计算出其模型建模计算出来的预测值和实验值的相关系数,并且为了更准确地描述计算结果,利用公式分别对上述五组数据得到的预测值与其实验值的误差值进行计算。根据上述研究结果表明:1.无论是对于同系物还是非同系化合物来讲,非线性模型的预测结果优于线性模型。两类模式识别方法,2.对于同系物化合物,基于有管理的模式识别方法(KNN)的QSTR模型优于基于无管理的模式识别方法(K均值聚类法)与未对样本分类的QSTR模型,基于无管理的模式识别方法的QSTR模型与样本未分类的QSTR模型相当;3.对于非同系化合物,基于两种模式识别方法的QSTR模型均优于样本未分类的QSTR模型。4.两类模式识别方法,无论是对于大容量非同系化合物还是同系化合物,模式识别方法对于改善其QSTR模型均有不同程度的帮助。5.定义了建模样本的结构相似度。虽然结构相似度不能成为判断模型预测结果优劣的唯一依据,但样本的结构相似度对所建立模型的优劣起到重要的作用。