基于数据挖掘算法的环境毒物QSAR研究

来源 :上海大学 | 被引量 : 6次 | 上传用户:fljk888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
能对人类、畜禽、鱼类或其他生物体显示体内毒性的那些环境污染物叫做环境毒物。近年来,评估化学物质对于人类、野生动物、水生动物和植物的潜在威胁已经成为当前环境科学和毒理学研究的一个热点。在此类研究中,定量结构活性相关(QSAR)方法提供了一种非常有价值的方法来研究有机化合物的毒性,因而开始在环境科学中得到广泛的应用。数据挖掘技术用于在数据中发现潜在有用的知识,在QSAR研究当中,正发挥着越来越重要的作用,而且取得了丰硕的成果。本文应用数据挖掘中的集成学习方法和贝叶斯网络方法来对环境毒物QSAR研究中的若干问题进行讨论。本文主要分为以下几个部分:1.研究了56个芳香类有机化合物对日本林蛙蝌蚪毒性的QSAR模型。首先利用MODEl和Chemoffice化学软件计算了56个芳香类有机化合物的68个分子描述符,然后用最小冗余最大相关(mRMR)-GA-SVR特征筛选方法得到6个较重要的分子结构参数,再用粒子群优化算法(PSO)得到优化的SVR模型参数,最后将SVR算法用于建立训练集的QSAR模型,并将该模型用于测试集数据的预测。计算结果表明PSO-SVR模型对芳香类有机化合物对日本林蛙蝌蚪的毒性数据有着良好的拟合能力(训练集上的R2和RMSE分别是0.95和0.1)和预测能力(测试集上的q2和RMSE分别为0.9和0.19)。我们还使用贝叶斯网络方法来分析模型中变量之间的关系,找到了模型中可能直接对毒性产生影响的直接变量和可能对毒性产生间接影响的间接变量。2.使用基于SVM的集成学习算法来研究110个醇类有机小分子化合物对欧洲林蛙毒性的QSAR模型。我们首先使用HyperChem7.5和JChem for Excel计算了66个分子描述符,并且使用基于互信息增益的CFS(Correlation-based FeatureSubset)算法筛选出4个关联化合物毒性最好的分子描述符,然后基于这4个分子描述符用基于Bagging的SVM集成学习算法来建模。最后,又与基于参数变换的SVM集成学习算法的预报性能做了比较。结果表明,基于参数变换的SVR集成学习算法对毒性拟合/预测精度优于PSO-SVR算法和基于Bagging的SVR集成学习算法。3.使用基于SVM的模型仓库的选择性集成学习算法来研究芳香类化合物对梨形四膜虫毒性的QSAR问题。我们从文献中收集了包含不同取代基团的581种芳香类化合物对水生梨形四膜虫毒性的数值。用Gaussian03,HyperChem和TSAR程序计算了68种分子结构描述符,用CFS算法筛选出6个关联化合物毒性最好的分子描述符。基于这6个描述符,我们用基于SVM的模型仓库的选择性集成学习算法建立了500个芳香类化合物对梨形四膜虫毒性和结构特征参数的关系模型,最后将该模型用于测试集81个芳香类化合物毒性的预测,并将结果与PSO-SVR模型与基于参数变换的SVM集成学习算法模型进行了比较。结果表明:基于SVM模型仓库的选择性集成算法的结果明显优于PSO-SVR模型和基于参数变换的SVM集成学习算法模型。
其他文献
[目的]探讨超声对血流动力学状态的评估与急性肾损伤的相关性。[方法]观察性研究2017年8月1日至2018年3月31日入住昆明医科大学第二附属医院重症医学科诊断为脓毒症或脓毒性
目的总结重症脓毒症的中医证候的临床特征。方法将本课题组前瞻性收集的410例包含中医信息的重症脓毒症的患者临床资料进行分析,统计各项证候发生的频数。结果重症脓毒症410
鉴于房地产的区域固定性,不同地区的房地产市场具有不同的发展轨迹和运行特点。在现行房地产业高速发展的背景下,充分认识房地产市场的这种区域差异性,探讨其影响因素、形成
目的:通过对气郁痰滞,心虚胆怯型失眠症的病机探讨,并观察气郁痰滞,心虚胆怯型失眠症患者经过高枕无忧汤治疗后匹兹堡睡眠质量指数量表评分以及中医临床症状的改变情况,评价
工业生产现场,因情况复杂存在着众多总线形式,采用同种总线间的设备可以实现信息的交互,不同总线间的设备不能直接进行信息互通,若要采用一种统一的总线形式对现存总线形式进行替换实现起来复杂,且成本高。因此,在不改变现有总线结构下开发一套能进行多种协议转换的设备对于多总线的工业生产现场具有重要意义。本文设计了一种多总线数据转换的方案,并基于此方案进行了系统软、硬件设计,开发出了能够进行多总线数据交换的控制
我国目前正处于城市绿道建设的热潮中,以往人们认为城市绿道的功能主要是交通和游憩功能,造成对城市绿道生态功能的忽视,其植物多样性的价值得不到足够的重视。而城市绿道恰
教师是课堂教学行为的实施主体,教师的教学行为直接影响课堂的教学效果与课堂目标的达成。教学切片诊断作为一种新型的课堂观察模式,旨在对课堂进行专业、细致、深入的观察,促进教师自我反思,优化教师课堂教学行为,提高课堂教学效果。研究旨在结合课堂教学切片诊断模式的相关理论,构建一种有效且适用于高中地理课堂观察的课堂教学行为切片诊断研究模式,并将其应用到地理课堂观察中,以寻求一种新的地理课堂观察方法,改善地理
近年来我国民航客运量的持续增长,发生不安全事件概率也随之增加,公共安全事件越来越受到公众的关注,给民航业安全管理带来许多新的难题,也使得民航业安全管理面临更多新的挑
太阳能和氢能是两种重要的可再生清洁能源,联合太阳能发电、电解水制氢是充分利用太阳能、实现可再生能源制氢的有效手段。目前存在的挑战是,在太阳电池中,传统的电极材料导