基于随机森林两阶段逐步变量选择算法的研究及应用

来源 :福建农林大学 | 被引量 : 9次 | 上传用户:jiangshan1017
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着多种数据自动采集技术、移动互联网、物联网、云计算的快速发展,在经济、生物等各领域在迅速积累着大量数据,由此产生的数据维度越来越高。变量数大大超过样本数,即“大P小N”问题。随机森林是一种常用的高维数据处理方法。它运行速度快,能有效处理非线性、交互作用、具有相关性的数据,一般不会产生过度拟合。随机森林自带的变量重要性得分评价更是随机森林算法的一大特点,可以应用到多种回归和分类问题,在经济、生物等各领域都有广泛研究。因此,本文提出基于随机森林两阶段逐步变量选择的算法(TSRF),主要内容如下:1.变量重要性排序改进方法:针对文献[53]所提出的变量中含有大量噪声变量以及与所选变量相关的变量,会影响真正要被选择的变量得分问题。本文提出第一阶段基于分组的随机森林变量重要性排序改进,目的是进一步提高重要变量与噪声变量的区分度。利用普通数据模拟实验与生物中的遗传数据模拟实验来验证方法的有效性和可行性。2.逐步选择变量改进方法:将随机森林与逐步选择变量方法相结合,提出基于随机森林的逐步变量选择改进。对自变量进行筛选,选入与因变量高度相关的变量,剔除不相关变量,使得算法建模后的自变量选择更加准确。利用普通数据模拟实验与生物中的遗传数据模拟实验来验证方法的有效性和可行性。其中普通数据模拟包含分类数据及回归数据。研究不同情况下,样本数量N、变量数目P、变量间的相关系数r以及分组数对基于两阶段随机森林逐步变量选择的影响。生物中的遗传数据模拟包含单个数量性状基因座模拟与多个数量性状基因座模拟。通过设定染色体长度、条数、数量性状基因座位置、标记数量等,来验证基于两阶段随机森林逐步变量选择对特定遗传数据处理的有效性和可行性。3.对比分析:对水稻穗粒数的实例数据进行标记选择实证研究。将处理后的结果与SCAD惩罚函数、弹性网回归Elastic Net参数估计方法的结果、传统数量性状基因座定位WinQTLcart2.5软件的运行结果比较,发现基于随机森林两阶段逐步变量选择算法有较大改进,能准确筛选变量。基于两阶段随机森林逐步变量选择的算法对经济、生物中高维数据的变量选择具有重要的意义。
其他文献
随着我国人民生活水平的提高,餐饮业发展迅速。为了防止偷税漏税的情况发生,我国推出了有奖发票制度。本文首先回顾了有奖发票制度的设立所依据的机制设计理论和前景理论的理论
随着经济全球化的不断深入和全球环境问题的日益恶化,在环保法律越来越严格的今天,中国企业在跨国经营中的环境风险越来越大,并表现出了客观性、损害性、不确定性、发展性和联系
煤炭是我国的主要能源,在能源消费结构中,占比达到60%以上。虽然近几年为了调整能源结构、促进节能减排,国家正在大力发展新能源,但是结合我国能源消费现状,想要大幅降低我国煤炭的使用几乎不可能,所以煤炭在未来很长时间内仍然是我国主要消费能源。与石油相比,研究金融因素与石油价格之间关系的文章有很多,而对煤炭价格的相关研究却较少。另外我国能源金融正在迅速崛起,煤炭的金融属性也越发显著,所以煤炭价格对金融因
本文分析在华外国人通过各种新媒体平台,用原创内容讲述中国故事的话语和表现方式特点,讨论在华外国人讲述中国故事的问题及策略,以便于交流、借鉴。
本文通过研究二战后日本金融制度产生、发展到暴露问题的过程,来探讨金融制度转变的轨迹和由此对企业资本结构变化产生的种种影响。在金融制度转变方面,战后日本金融制度的基