基于互信息的变量选择方法研究

来源 :中南大学 | 被引量 : 0次 | 上传用户：cgy1922

【摘要】

：

现代分析仪器的产生及计算机技术的进步,极大地促进了分析化学和生命科学的研究和发展。如今,我们能够通过含有成千上万个分析通道(如基因芯片,质谱的质荷比和近红外光谱、拉

【作者】

：

龙旭霞

【出处】

：

中南大学

【发表日期】

：

2013年期

【关键词】

：

变量选择互信息模型集群分析偏最小二乘线性判别分析交叉验证

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

现代分析仪器的产生及计算机技术的进步,极大地促进了分析化学和生命科学的研究和发展。如今,我们能够通过含有成千上万个分析通道(如基因芯片,质谱的质荷比和近红外光谱、拉曼光谱等的波长)的仪器来获取实验样本的相关数据。然而,这也意味着我们将要面临一个新的难题,如何从这些庞大的数据集里挑选出有信息的变量,并建立起相应的分析识别模型?为此,本文提出了一个新的变量选择方法,即MPA-MMIFS,它以交互信息为基础并结合了模型集群分析(Model Population Analysis, MPA)的概念,使得样本集中待选变量与样本类型的互信息最大,且与已选变量的互信息最小。此外,我们还引入了偏最小二乘线性判别分析(Partial Least Squares Linear Discriminant Analysis, PLS-LDA)的回归系数来调整变量的重要性。为了对我们提出的方法进行测试,我们选取了3个实际生活中的数据集(Estrogen基因表达数据,Ⅱ型糖尿病代谢数据与近红外数据食用醋分类数据)来进行变量筛选和样本建模,并同时采用了交叉验证法(Cross Validation, CV)和双交叉验证法(Double Cross Validation, DCV)来对模型进行评价。通过与其他变量选择方法(MIFS、MMIFS和GA)的比较,其结果表明,我们提出的基于模型集群分析方法在这三个具有不同性质的数据上均表现出不同程度的优势。以Estrogen数据为例,其留一交互检验预测准确率为100%,且利用其选出的仅5个基因做主成分分析,就能得到两类样本非常明显的分类趋势。

其他文献

试论经济犯罪的客体

本文通过论证经济犯罪的客体只能是社会主义经济秩序,从而为经济犯罪的分类和经济犯罪的概念提供科学依据.

期刊

经济法犯罪

固定化微藻在解决环境问题方面的应用

介绍微藻固定化技术在环境的生物监测方面具有灵敏度高、同一装置能监测多种污染物等优点,阐述固定化微藻在污水处理中的脱氮除磷、重金属离子去除、难降解有机物去除及环境

期刊

微藻固定化污水处理环境监测综述

新目标英语八年级(上)Unit 5 STEP BY STEP随堂通

期刊

Unit 5 STEP BY STEP新目标英语八年级