论文部分内容阅读
定量结构-活性关系(QSAR)是一种研究化合物分子结构与其物化性质或生物活性间关系的方法,目前在国内外都是一个研究热点。从QSAR提出至今不过80余年的时间,该方法就已经在化学、毒理学、环境科学和生态科学等领域有了重要的应用。考虑到实际生态环境中化合物大多以混合物的形式存在,近些年研究人员开始关注混合物的QSAR研究,用QSAR模型来预测混合物的联合毒性是意义重大的研究课题。论文的第一章详述了本研究的意义,QSAR的国内外研究现状,本研究的内容、方法、创新点以及研究的技术路线。论文的第二章介绍了QSAR的发展史、几种经典的QSAR模型、QSAR模型的建模步骤、QSAR方法的应用、混合物的QSAR研究现状以及人工神经网络的原理。论文的第三章和第四章分别对不同的混合物进行了QSAR建模研究,简单叙述如下:(1)选择了12种苯系物,包括非极性麻醉型化合物与极性麻醉型化合物,不同的混合物就在这些化合物中分类生成,然后对不同的混合物进行QSAR模型的建立。(2)计算混合物的混合分子结构描述符,其中拓扑参数需要先分别计算出单一化合物的描述符再进行数学运算得到混合物的描述符,本研究提出了一种混合描述符的计算方法。将分子结构描述符分为物理化学参数、拓扑参数和量子化学参数三类,分别通过查阅文献、软件E-dragon和软件Gaussian09计算获得。最终选取了33个常用的、经典的描述符,物化参数、拓扑参数与量化参数的个数分别为10、12和11。(3)结合多种筛选方法,提出了一种新的变量筛选规则。采用软件SPSS19.0里的多元线性回归(包括前进法、后退法和逐步回归法)与主成分分析法进行分子结构描述符的筛选,剔除存在严重自相关的变量。由于非极性与极性物质之间的结构、性质差异,两类混合物选出的描述符不尽相同,个数分别为6和7。对单一描述符和毒性数据间进行建模,结果表明不同描述符对混合物毒性的贡献值不同,而同一描述符在不同的混合物中对混合物毒性的贡献值也不相同。(4)采用R语言建立模型并验证,分别采用了多元线性回归、偏最小二乘、支持向量机方法与BP神经网络进行比较分析,采用内、外部方法同时对模型进行验证,计算了相关系数QCV2、均方根误差RMSEV和QF12三个统计量。结果表明两类混合物所建的4个模型均具有较好的拟合优度、稳健性和预测性,但综合指标来看,不管是在非极性混合物还是极性混合物中,BP神经网络模型还是要优于其它3个模型,说明ANN方法适用于混合物的QSAR模型建立。本研究的创新点在于在QSAR模型中引入了不同种类的分子结构描述符,比起单一或单类的描述符要更加全面。对描述符进行变量筛选的时候,采用了结合几种方法的综合选择结果,得到的描述符与混合物毒性具有较高的相关性并且描述符间相互独立。关于混合拓扑描述符,现今还没有相关计算方法,本研究提出了一种简单计算方法。建模采用的监督学习型人工神经网络方法,与简单的线性建模方法相比能更好地处理非线性关系,结果也表明ANN方法建立的模型具有很好的预测能力和稳健性。