论文部分内容阅读
现代分析仪器的产生及计算机技术的进步,极大地促进了分析化学和生命科学的研究和发展。如今,我们能够通过含有成千上万个分析通道(如基因芯片,质谱的质荷比和近红外光谱、拉曼光谱等的波长)的仪器来获取实验样本的相关数据。然而,这也意味着我们将要面临一个新的难题,如何从这些庞大的数据集里挑选出有信息的变量,并建立起相应的分析识别模型?为此,本文提出了一个新的变量选择方法,即MPA-MMIFS,它以交互信息为基础并结合了模型集群分析(Model Population Analysis, MPA)的概念,使得样本集中待选变量与样本类型的互信息最大,且与已选变量的互信息最小。此外,我们还引入了偏最小二乘线性判别分析(Partial Least Squares Linear Discriminant Analysis, PLS-LDA)的回归系数来调整变量的重要性。为了对我们提出的方法进行测试,我们选取了3个实际生活中的数据集(Estrogen基因表达数据,Ⅱ型糖尿病代谢数据与近红外数据食用醋分类数据)来进行变量筛选和样本建模,并同时采用了交叉验证法(Cross Validation, CV)和双交叉验证法(Double Cross Validation, DCV)来对模型进行评价。通过与其他变量选择方法(MIFS、MMIFS和GA)的比较,其结果表明,我们提出的基于模型集群分析方法在这三个具有不同性质的数据上均表现出不同程度的优势。以Estrogen数据为例,其留一交互检验预测准确率为100%,且利用其选出的仅5个基因做主成分分析,就能得到两类样本非常明显的分类趋势。