论文部分内容阅读
随着多种数据自动采集技术、移动互联网、物联网、云计算的快速发展,在经济、生物等各领域在迅速积累着大量数据,由此产生的数据维度越来越高。变量数大大超过样本数,即“大P小N”问题。随机森林是一种常用的高维数据处理方法。它运行速度快,能有效处理非线性、交互作用、具有相关性的数据,一般不会产生过度拟合。随机森林自带的变量重要性得分评价更是随机森林算法的一大特点,可以应用到多种回归和分类问题,在经济、生物等各领域都有广泛研究。因此,本文提出基于随机森林两阶段逐步变量选择的算法(TSRF),主要内容如下:1.变量重要性排序改进方法:针对文献[53]所提出的变量中含有大量噪声变量以及与所选变量相关的变量,会影响真正要被选择的变量得分问题。本文提出第一阶段基于分组的随机森林变量重要性排序改进,目的是进一步提高重要变量与噪声变量的区分度。利用普通数据模拟实验与生物中的遗传数据模拟实验来验证方法的有效性和可行性。2.逐步选择变量改进方法:将随机森林与逐步选择变量方法相结合,提出基于随机森林的逐步变量选择改进。对自变量进行筛选,选入与因变量高度相关的变量,剔除不相关变量,使得算法建模后的自变量选择更加准确。利用普通数据模拟实验与生物中的遗传数据模拟实验来验证方法的有效性和可行性。其中普通数据模拟包含分类数据及回归数据。研究不同情况下,样本数量N、变量数目P、变量间的相关系数r以及分组数对基于两阶段随机森林逐步变量选择的影响。生物中的遗传数据模拟包含单个数量性状基因座模拟与多个数量性状基因座模拟。通过设定染色体长度、条数、数量性状基因座位置、标记数量等,来验证基于两阶段随机森林逐步变量选择对特定遗传数据处理的有效性和可行性。3.对比分析:对水稻穗粒数的实例数据进行标记选择实证研究。将处理后的结果与SCAD惩罚函数、弹性网回归Elastic Net参数估计方法的结果、传统数量性状基因座定位WinQTLcart2.5软件的运行结果比较,发现基于随机森林两阶段逐步变量选择算法有较大改进,能准确筛选变量。基于两阶段随机森林逐步变量选择的算法对经济、生物中高维数据的变量选择具有重要的意义。