基于互信息的变量选择方法研究

来源 :中南大学 | 被引量 : 0次 | 上传用户:cgy1922
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代分析仪器的产生及计算机技术的进步,极大地促进了分析化学和生命科学的研究和发展。如今,我们能够通过含有成千上万个分析通道(如基因芯片,质谱的质荷比和近红外光谱、拉曼光谱等的波长)的仪器来获取实验样本的相关数据。然而,这也意味着我们将要面临一个新的难题,如何从这些庞大的数据集里挑选出有信息的变量,并建立起相应的分析识别模型?为此,本文提出了一个新的变量选择方法,即MPA-MMIFS,它以交互信息为基础并结合了模型集群分析(Model Population Analysis, MPA)的概念,使得样本集中待选变量与样本类型的互信息最大,且与已选变量的互信息最小。此外,我们还引入了偏最小二乘线性判别分析(Partial Least Squares Linear Discriminant Analysis, PLS-LDA)的回归系数来调整变量的重要性。为了对我们提出的方法进行测试,我们选取了3个实际生活中的数据集(Estrogen基因表达数据,Ⅱ型糖尿病代谢数据与近红外数据食用醋分类数据)来进行变量筛选和样本建模,并同时采用了交叉验证法(Cross Validation, CV)和双交叉验证法(Double Cross Validation, DCV)来对模型进行评价。通过与其他变量选择方法(MIFS、MMIFS和GA)的比较,其结果表明,我们提出的基于模型集群分析方法在这三个具有不同性质的数据上均表现出不同程度的优势。以Estrogen数据为例,其留一交互检验预测准确率为100%,且利用其选出的仅5个基因做主成分分析,就能得到两类样本非常明显的分类趋势。
其他文献
本文通过论证经济犯罪的客体只能是社会主义经济秩序,从而为经济犯罪的分类和经济犯罪的概念提供科学依据.
介绍微藻固定化技术在环境的生物监测方面具有灵敏度高、同一装置能监测多种污染物等优点,阐述固定化微藻在污水处理中的脱氮除磷、重金属离子去除、难降解有机物去除及环境
预算管理作为提高企业经营管理水平,加强成本控制,增强企业的市场竞争力一种有效方法,在许多施工企业得以推广。目前施工企业预算管理中存在的一些问题影响了企业的发展,应从
科学管理仓库,能够提高工作效率,使物资尽快地投入生产,是企业运营的重中之重。本文就物资入库、出库和日常管理中仓库保管员应执行的管理制度进行了简要概述。
文章结合湖南省的实际,在推进社会主义新农村建设中,对"千村示范"工程进行了研究,提出了"千村示范"工程建设的目标、主内容、措施等。
<正>本文通过检测患者早期血清磷、超敏C-反应蛋白(hs-CRP)的水平及变化情况,应用受试者工作曲线(ROC曲线)分析血清磷、hs-CRP诊断细菌性脓毒症的价值。1资料和方法1.1一般资
高校办公室工作效率的高低直接影响到其参谋、协调和沟通等作用的发挥,影响到学校管理水平的体现和精神风貌的展示。完善办公制度、更新思想意识、加强人员素质和优化办公条
随着当今社会各领域的发展和人民生活质量的提高,能源的使用量随之增大,造成了大量的能源消耗,突出体现在大型建筑当中,如商业建筑和校园建筑等。为了贯彻国家“十三五”规划