论文部分内容阅读
生物降解性是评估化合物环境持久性的重要参数,是化学品是否获准生产及进入市场的评价指标。由于现有化学品数量已超过14万种,无法一一测试化合物的生物降解性。本研究依据OECD提出的定量构效关系(QSAR)建模和使用导则,基于QSAR原理对化学品生物降解性进行预测,为表征化合物环境持久性提供基础数据,为化学品风险评价和管理提供依据。同时在建模型前探讨了训练集易降解和难降解类化合物比例对模型预测效果的影响,确定了合理的易降解和难降解类化合物比例范围。本论文主要研究内容和结果如下:(1)搜集整理了470种链状化合物的生物降解性数据,分别构造了易降解与难降解类化合物比例为1:4,2:4,3:4,4:4,4:3,4:2,4:1的训练集。选取167个Dragon描述符,采用功能树方法筛选描述符和建模,研究了化合物类别比例对模型效果的影响。研究结果表明:模型对训练集中占多数类别的化合物预测准确率偏高,而对占少数类别的化合物预测能力不理想,并且通过类别比例平衡的训练集构建的模型预测效果最优。同时化合物类别比例对模型预测规则提取的影响表现在描述符的差异上,最终表现在模型对每类化合物的预测效果上。(2)搜集整理了1629种化合物生物降解性数据,选取了487种Dragon描述符参数并运用功能树方法进行筛选。采用逻辑回归、功能树和C4.5决策树方法构建了预测模型。研究结果表明:功能树模型预测性能最优,对训练集和两个验证集的预测准确率分别为81.5%,81.0%和100%,对两类化合物也都具有良好的预测能力和稳健性。描述符分析表明化合物的环结构数、卤原子数、氮原子数增大有碍于化合物的生物降解,同时描述符SRW10和ATS3p值较大的化合物也相对难于降解,而描述符MATS3m值较大的化合物则相对易于被生物降解。