论文部分内容阅读
随机森林是一种组合分类器,它的主要思想是基于两个随机过程(训练样本随机抽取、特征集随机抽取)来构建多棵相对独立的决策树分类器,然后通过所有决策树参与投票的方式获得最终的预测结果,这样有效避免了过度拟合的问题,并且构建决策树的相对独立性适合于并行计算提高模型的预测效率,方便处理高维数据。这些特点使随机森林在各个工程应用中得到了迅速、广泛的使用,成为机器学习、数据挖掘研究中的热门算法。虽然随机森林在模型构建过程中的随机抽样解决了过拟合的问题,但是也使得模型中不同决策树的泛化能力存在一定的差异,在传统随机森林模型中这些具有不同泛化能力的决策树拥有相同的投票权重,这影响了模型整体预测能力的稳定性。因此,为了进一步提高随机森林模型整体的预测能力,本文提出了一种优化的随机森林投票方法,通过使用决策树的分类性能与样本的统计特征来确定决策树的投票权重,使用加权决策树投票的方式提高随机森林整体模型的准确率与效率。本文通过研究传统随机森林算法,着重优化了随机森林的投票过程,针对投票过程中存在的问题,提出改进的方法,并通过在多个公共数据集上展开实验,验证优化方法的合理性和优越性。本研究的主要工作包括:(1)从决策树的分类能力、训练样本的统计特性入手,提出了 4种计算决策树投票权重的方法,包括OOB评估、样本数据相关系数评估、卡方评估和互信息评估,通过这4种评估方法为单棵决策树计算投票权重。在8组数据集上进行对比实验,实验结果表明引入投票加权的方法可以有效的提高随机森林模型整体的泛化能力,其中以相关系数作为决策树投票权重计算依据时,模型表现出更稳定、更高的预测准确率。(2)在引入加权投票算法的基础上,本文还提出了一种半投票量模式,对构建好的加权随机森林模型按照决策树投票权重进行降序排序,在随机森林模型进行串行投票的过程中,确定半投票量的预测终止条件,通过提前触发预测终止条件来提高模型预测的速度。本文在4组数据集上进行对比实验,验证了半投票量模式可以在不影响模型预测准确率的前提下显著提高随机森林模型的预测速度。