基于KNN与K均值聚类模式识别方法的同系与非同系有机物的定量结构毒性相关研究

来源 :山西师范大学 | 被引量 : 5次 | 上传用户:jwyzfh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着工业的不断发展,人类的环境受到相应的影响,其中人类健康成为关注的重点。在预测生物毒性方面科学家们也做了许多的研究。为了进一步了解生物毒性,减轻环境和生物的双重压力,节省金钱和时间的开销,采用定量构效关系研究化合物毒性显得尤为重要。目前,机器学习的方法被广泛应用于各行的软测量建模中,最常用的有管理的模式识别方法有K-最近邻(K-nearest neighbor,KNN)方法,常用的无管理的模式识别方法有K均值聚类方法。在建立模型的过程中,将模式识别方法与基于机器学习的建模方法相结合,对不同类别的化合物进行QSTR(Quantitative Structure-Toxicity Relationship)的研究。本论文主要分三大部分研究:(一)KNN与K均值模式识别方法对同系物化合物生物毒性的QSTR研究:基于选取了258个苯酚类化合物的生物毒性数据和263个芳香类化合物的生物毒性数据作为实验数据,分别通过软件ADMEWORKS Model Builder的计算,选出各自的结构描述符作为样本的结构参数,用稳健诊断方法剔除奇异样本,分别采用有监督的模式识别方法-K最近邻方法和无监督的模式识别方法-K均值聚类方法对剩余的样本数据进行分类,采用球型排除算法对得到的每一类进行验证集、测试集的划分,然后运用多元线性回归(Multiple Linear Regression,MLR)、偏最小二乘(Partial Least Square,PLS)和人工神经网络(Artificial Neural Networks,ANN)方法进行预测模型的建立。(二)KNN与K均值模式识别方法对非同系物化合物生物毒性的QSTR研究。本文从CPDB(Carcinogenic Potency Database)数据库收集筛选出共90个仅仅作用于小鼠的肝靶器官的活性致癌性信息作为研究样本,通过软件ADMEWORKS Model Builder的计算,选出3个结构描述符作为样本的结构参数,用稳健诊断方法剔除6个奇异样本,分别采用有监督的模式识别方法-K最近邻方法和无监督的模式识别方法-K均值聚类方法对剩余的样本数据进行分类,采用球型排除算法对得到的每一类进行验证集、测试集的划分,然后运用上述三种建模方法进行预测模型的建立。进而对非同系化合物的构效关系研究提供一定的研究方向。(三)运用模拟数据进行Q S T R的研究:通过运用公式模拟出253个数据样本,通过稳健诊断方法共剔除13个奇异样本。然后采用上述两种模式识别方法对其进行分类,然后用球型排除算法对各自分好的类别进行验证集、测试集的具体划分,然后采用上述三种建模方法进行模型的建立来进一步模拟同系化合物的QSTR研究。运用公式模拟出100个样本数据,结合前面剔除掉奇异值余下的240个样本共340个样本数据然后采用上述两种模式识别方法对其进行分类,采用球型排除算法对得到的每一类进行验证集、测试集的划分,然后采用上述三种建模方法进行模型的建立来进一步模拟非同系化合物的QSTR研究。通过采用模拟数值的方法对实验数值得到的结论进行进一步的验证。(四)利用结构相似度公式:,其中a,b表示两个样本结构描述符向量,(?),(?)表示向量范数。定义了建模样本的结构相似度,分别作用于上述三组实验数据集及其两组模拟数据集来探究建模样本的结构相似度对建模结果优劣的判断。(五)通过MLR、PLS和ANN建模方法分别计算出其模型建模计算出来的预测值和实验值的相关系数,并且为了更准确地描述计算结果,利用公式分别对上述五组数据得到的预测值与其实验值的误差值进行计算。根据上述研究结果表明:1.无论是对于同系物还是非同系化合物来讲,非线性模型的预测结果优于线性模型。两类模式识别方法,2.对于同系物化合物,基于有管理的模式识别方法(KNN)的QSTR模型优于基于无管理的模式识别方法(K均值聚类法)与未对样本分类的QSTR模型,基于无管理的模式识别方法的QSTR模型与样本未分类的QSTR模型相当;3.对于非同系化合物,基于两种模式识别方法的QSTR模型均优于样本未分类的QSTR模型。4.两类模式识别方法,无论是对于大容量非同系化合物还是同系化合物,模式识别方法对于改善其QSTR模型均有不同程度的帮助。5.定义了建模样本的结构相似度。虽然结构相似度不能成为判断模型预测结果优劣的唯一依据,但样本的结构相似度对所建立模型的优劣起到重要的作用。
其他文献
在全省加快推进国土空间规划编制的关键时期,河南省委、省政府高瞻远瞩,谋划深远,举办全省领导干部国土空间规划研修班,对各级国土空间规划的谋划者、推动者、实施者开展培训,对国土空间规划工作开好头、起好步,对引领做好“十四五”各项工作至关重要。  这次研修班既是国土空间规划工作的一次集中学习交流,也是高质量编制规划的一次全面动员部署。各地必须以高度的责任感、使命感,进一步更新理念,提升能力,集中精力,加
故宫博物院院藏大量清代戏曲类文物,包括戏曲服饰、盔头、道具等,品类繁多。这些文物在历经百年后,出现了老化、褪色、脏污、变形、褶皱、破损、断裂等诸多问题。在这些常见
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
饲料添加剂是指根据畜禽对营养的需要,人为地添加到饲料中的微量物质,其作用是提高饲料的营养价值和利用率,促进畜禽生长发育.但如果使用不当,则效果较差,甚至出现副作用.实
目的探索影响城乡老年人一般自我效能感的主要因素,分析各因素的作用路径,为提高老年人一般自我效能感,改善老年人健康行为提供科学依据。方法采用多阶段分层整群抽样法对分
作为中国当代文学新生形态的网络文学已成为时下显学,是当下一个绕不开的学术和文化现象。"网络文学评价体系构建"怀化会议以"沉淀与反思"的姿态直面网络文学发展中成绩和问
对双馈式风力发电机齿轮箱研究的必要性进行简单说明;探讨了齿轮箱各轴等效到主轴(风轮轴)上的刚度换算和转动惯量计算方法;推导了整个传动系统的主谐振频率;对1.5MW齿轮箱进
利用ABAQUS有限元模拟软件建立V级围岩条件下山岭隧道洞口段的地震响应数值模拟三维模型,对比研究其在不同衬砌刚度时的抗震响应情况,从而得到衬砌刚度对其抗震性能影响的规