基于加权决策树的随机森林模型优化

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:zhangShunsheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随机森林是一种组合分类器,它的主要思想是基于两个随机过程(训练样本随机抽取、特征集随机抽取)来构建多棵相对独立的决策树分类器,然后通过所有决策树参与投票的方式获得最终的预测结果,这样有效避免了过度拟合的问题,并且构建决策树的相对独立性适合于并行计算提高模型的预测效率,方便处理高维数据。这些特点使随机森林在各个工程应用中得到了迅速、广泛的使用,成为机器学习、数据挖掘研究中的热门算法。虽然随机森林在模型构建过程中的随机抽样解决了过拟合的问题,但是也使得模型中不同决策树的泛化能力存在一定的差异,在传统随机森林模型中这些具有不同泛化能力的决策树拥有相同的投票权重,这影响了模型整体预测能力的稳定性。因此,为了进一步提高随机森林模型整体的预测能力,本文提出了一种优化的随机森林投票方法,通过使用决策树的分类性能与样本的统计特征来确定决策树的投票权重,使用加权决策树投票的方式提高随机森林整体模型的准确率与效率。本文通过研究传统随机森林算法,着重优化了随机森林的投票过程,针对投票过程中存在的问题,提出改进的方法,并通过在多个公共数据集上展开实验,验证优化方法的合理性和优越性。本研究的主要工作包括:(1)从决策树的分类能力、训练样本的统计特性入手,提出了 4种计算决策树投票权重的方法,包括OOB评估、样本数据相关系数评估、卡方评估和互信息评估,通过这4种评估方法为单棵决策树计算投票权重。在8组数据集上进行对比实验,实验结果表明引入投票加权的方法可以有效的提高随机森林模型整体的泛化能力,其中以相关系数作为决策树投票权重计算依据时,模型表现出更稳定、更高的预测准确率。(2)在引入加权投票算法的基础上,本文还提出了一种半投票量模式,对构建好的加权随机森林模型按照决策树投票权重进行降序排序,在随机森林模型进行串行投票的过程中,确定半投票量的预测终止条件,通过提前触发预测终止条件来提高模型预测的速度。本文在4组数据集上进行对比实验,验证了半投票量模式可以在不影响模型预测准确率的前提下显著提高随机森林模型的预测速度。
其他文献
球幕展示系统以球面或者半球面作为显示表面,其大视角、沉浸式的显示效果,能够给用户带来强烈的沉浸感与临场感,因此在文物展示、虚拟现实、球幕电影等方面得到广泛的应用。  
随着科学技术的发展和科学研究的需要,机会网络(Opportunistic Networks)应运而生。机会网络不满足传统移动自组织网络体系结构的一些基本假设,它呈现出高延迟,低传输成功率以及不
随着模型驱动开发技术的不断成熟,针对不同领域基于模型驱动的工具不断出现。模型驱动开发使得开发重点侧重于逻辑的设计,使工程师在更高抽象层次设计系统,无须关心具体实现细节
学位
随着三维扫描技术、三维图形建模方法以及计算机硬件的快速发展,三维模型不仅在数量方面迅速增长,而且其应用领域也变得越来越广泛。例如工业产品CAD、虚拟现实、3D游戏等。
服务计算是当前工业界与学术界备受关注的主题之一,其重点就是以标准的方式支持系统的开放性,从而使系统与相关技术具有长久的生命力。面向服务的体系结构(ServiceOriented Arch
汽车电子技术的发展,为汽车提供了功能强大的电子控制系统,与此同时,汽车控制系统的复杂性和对实时性的要求使得对于汽车测试技术的要求越来越高。虚拟仪表技术是仪器仪表测试技
图像融合是由信息融合发展而来的,通过对源图像间冗余信息和互补信息进行处理,使得到的融合图像可靠性增强,能更客观地、更精确地和更全面地对某一场景进行图像描述。近年来,
图像去噪一直以来都是计算机图像处理和计算机视觉中的一个研究热点,并且随着成像分析和对图像的后续应用方面的发展,人们对图像质量的要求越来越高,因此自从图像去噪出现的
由于突发公共事件具有突发性、复杂性等特点,要求应急决策人员必须在短时间内做出合理对策。单一依靠决策者的决定并不能保证决策的时效性和有效性。应急决策支持系统可以帮助