论文部分内容阅读
大量存在于空气、土壤和水等诸多环境要素中的化合物,它们对人类和动植物的毒性的定性与定量是当前迫切需要解决的问题。这些大量的环境化合物的毒性的当前检测手段是动物实验,其中便宜并且快速的试管实验用于初检,昂贵并且费时的体内实验用于终检。动物实验所面临的最大问题是伦理问题,随着人类文明程度的提高和人类对于自身与其共居地球的动植物之间关系的认识的深入,伦理问题将成为动物实验所面临的最大问题;其次,动物实验尤其是体内实验的高时间成本和高金钱成本也限制了动物实验检测化合物的数量。为解决动物实验的检测瓶颈问题,定量构效关系技术出现于世并且逐渐发展起来,定量构效关系涉及数学和统计学、量子力学、生物学、和计算机科学,是化合物的分子结构及其毒性之间的定量因果关系模型。定量构效关系以数学和统计学理论为基础建立数学模型,以计算机科学为工具实现数学和统计学理论,以量子力学为工具获取化合物的分子结构,以生物学为工具获取化合物的毒性数据以及认识化合物的致毒机理,利用所建立的模型可不经动物实验直接从化合物的分子结构获取化合物的毒性值。定量构效关系技术替代动物实验成为化合物毒性的检测手段的可能性,已经使得定量构效关系对当前的化合物毒性检测技术产生了重大影响,并且可以预见,定量构效关系对于当前检测技术的未来发展方向也将产生深远的影响。本论文以环境化合物的毒性为检测目标,以定量构效关系技术为检测手段,探索了以定量构效关系技术替代动物实验检测化合物毒性的可能性,一共建立了三个定量构效关系模型,分别是致癌性分类模型、雌激素受体绑定能力分类模型和脑血屏障可透性分类模型,并且利用动物实验检测值对三个所建模型的性能进行了评价。首先,利用美国环保局提供的1153个环境化合物的分子结构数据和长期啮齿类动物致癌性生物鉴定值,建立了环境化合物的致癌性分类模型。根据化合物的分子结构描述符的正态分布假设和化合物毒性分类值的二项分布假设,取得全部1153个化合物的分子结构和毒性值的罗杰斯分布函数式;利用拉普拉斯前提改造负对数似然函数取得罗杰斯分布的稀疏性和拟合性矛盾二者的制衡;利用交叉校验从729个分子结构描述符的权重排序中选择9个分子结构描述符,作为化合物致癌性分类模型的结构数据;以化合物致癌性的阴性和阳性之间距离的最大化为优化条件,选取797个化合物作为支持向量,选取高斯核函数度量两两化合物之间的相关性,利用支持向量机构造超平面将1153个化合物分类为阴性和阳性;用1153个化合物的长期啮齿类动物致癌性生物鉴定值对所建的化合物致癌性分类模型的性能进行了评价,模型对1153个化合物的致癌性的分类正确率是66.86%。其次,利用美国环保局提供的278个环境化合物的分子结构数据和大鼠子宫细胞溶质雌激素受体竞争性绑定实验值,建立了环境化合物的雌激素受体绑定能力分类模型。利用化合物的熵构造化合物的对称无常,利用对称无常同时度量化合物的分子结构描述符两两之间的冗余性和分子结构描述符与雌激素受体绑定能力之间的因果性;设计算法从278个化合物的729个分子结构描述符中选择8个高因果性并且低冗余性的分子结构描述符,作为雌激素受体绑定能力分类模型的结构数据;构造8维笛卡尔特征空间,采用欧几里得距离度量278个化合物两两之间的相似性,采用k个最近邻居利用4个结构最相似的化合物投票决定待测化合物的雌激素受体绑定能力的阴性或阳性;利用278个化合物的大鼠子宫细胞溶质雌激素受体竞争性绑定实验值对所建的雌激素受体绑定能力分类模型的性能进行了评价,模型对278个化合物的雌激素受体绑定能力的分类正确率是96.76%。最后,利用QSAR World提供的80个环境化合物的分子结构数据和脑血屏障可透性活体测量值,建立了环境化合物的脑血屏障可透性分类模型。构造全部80个化合物的完全图,利用点积计算完全图的邻接矩阵、次数矩阵和拉普拉斯矩阵,利用奇异值分解取得拉普拉斯矩阵的特征值和特征向量,利用完全图谱度量分子结构描述符的优度;利用交叉校验从729个分子结构描述符的优度排序中选择9个分子结构描述符,作为脑血屏障可透性分类模型的结构数据;构造贝叶斯分类器作为化合物的脑血屏障可透性分类模型,利用朴素假设将联合概率转化为独立概率,利用频率计算化合物的脑血屏障可透性的阴性和阳性的概率,利用正态分布构造分子结构描述符的概率分布式,利用最大似然估计取得正态分布的均值和方差;利用10个化合物的脑血屏障可透性活体测量值对所建立的化合物脑血屏障可透性分类模型的性能进行了评价,模型对10个化合物的脑血屏障可透性的分类正确率是90.00%。