论文部分内容阅读
能对人类、畜禽、鱼类或其他生物体显示体内毒性的那些环境污染物叫做环境毒物。近年来,评估化学物质对于人类、野生动物、水生动物和植物的潜在威胁已经成为当前环境科学和毒理学研究的一个热点。在此类研究中,定量结构活性相关(QSAR)方法提供了一种非常有价值的方法来研究有机化合物的毒性,因而开始在环境科学中得到广泛的应用。数据挖掘技术用于在数据中发现潜在有用的知识,在QSAR研究当中,正发挥着越来越重要的作用,而且取得了丰硕的成果。本文应用数据挖掘中的集成学习方法和贝叶斯网络方法来对环境毒物QSAR研究中的若干问题进行讨论。本文主要分为以下几个部分:1.研究了56个芳香类有机化合物对日本林蛙蝌蚪毒性的QSAR模型。首先利用MODEl和Chemoffice化学软件计算了56个芳香类有机化合物的68个分子描述符,然后用最小冗余最大相关(mRMR)-GA-SVR特征筛选方法得到6个较重要的分子结构参数,再用粒子群优化算法(PSO)得到优化的SVR模型参数,最后将SVR算法用于建立训练集的QSAR模型,并将该模型用于测试集数据的预测。计算结果表明PSO-SVR模型对芳香类有机化合物对日本林蛙蝌蚪的毒性数据有着良好的拟合能力(训练集上的R2和RMSE分别是0.95和0.1)和预测能力(测试集上的q2和RMSE分别为0.9和0.19)。我们还使用贝叶斯网络方法来分析模型中变量之间的关系,找到了模型中可能直接对毒性产生影响的直接变量和可能对毒性产生间接影响的间接变量。2.使用基于SVM的集成学习算法来研究110个醇类有机小分子化合物对欧洲林蛙毒性的QSAR模型。我们首先使用HyperChem7.5和JChem for Excel计算了66个分子描述符,并且使用基于互信息增益的CFS(Correlation-based FeatureSubset)算法筛选出4个关联化合物毒性最好的分子描述符,然后基于这4个分子描述符用基于Bagging的SVM集成学习算法来建模。最后,又与基于参数变换的SVM集成学习算法的预报性能做了比较。结果表明,基于参数变换的SVR集成学习算法对毒性拟合/预测精度优于PSO-SVR算法和基于Bagging的SVR集成学习算法。3.使用基于SVM的模型仓库的选择性集成学习算法来研究芳香类化合物对梨形四膜虫毒性的QSAR问题。我们从文献中收集了包含不同取代基团的581种芳香类化合物对水生梨形四膜虫毒性的数值。用Gaussian03,HyperChem和TSAR程序计算了68种分子结构描述符,用CFS算法筛选出6个关联化合物毒性最好的分子描述符。基于这6个描述符,我们用基于SVM的模型仓库的选择性集成学习算法建立了500个芳香类化合物对梨形四膜虫毒性和结构特征参数的关系模型,最后将该模型用于测试集81个芳香类化合物毒性的预测,并将结果与PSO-SVR模型与基于参数变换的SVM集成学习算法模型进行了比较。结果表明:基于SVM模型仓库的选择性集成算法的结果明显优于PSO-SVR模型和基于参数变换的SVM集成学习算法模型。