基于属性约简的决策森林算法研究

来源 :华北电力大学(北京) | 被引量 : 0次 | 上传用户:tuniao1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
决策森林是基于决策树的集成学习方法。将集成的优势与决策树相结合,决策森林能够有效地避免过拟合,提高分类精度。然而,传统的决策森林借助ID3和C4.5等经典算法构造基学习器——决策树的过程中存在一些局限性,如无法避免子树重复和部分属性被多次选择的问题,进而直接导致模型复杂度升高,所提取的规则难以解释。针对传统决策森林算法中的不足,本文先提出了一种基于属性约简的决策森林算法,而后在此基础上又提出了属性增量的改进决策森林算法。本文将粗糙集理论中的属性约简技术作为数据处理方法与决策树相结合,提出了一种新的决策树构造算法,并借助集成学习的思想,针对分类任务采用投票的方式提出基于属性约简的决策森林算法。具体地,对于森林中决策树的构造,以条件属性是否具有将在此条件属性上取值不同且决策不同的样本区分开为标准,对条件属性进行约简,只保留真正有效的属性。并以约简后属性相对分类任务重要性的由高到低顺序依次选作决策树每层结点的最佳划分属性,解决了经典建树方法中子树重复和部分属性被多次选择的问题。在构造决策森林的过程中,对于分类任务使用相对多数投票法处理所有决策树的输出结果作为最终森林的输出。本文进一步提出属性增量的决策森林构造算法。首先在属性子集的基础上训练初始决策树,然后在保证决策树分类能力不减的前提下,对其余属性逐一进行判断其是否能够替代决策树中已有属性而达到简化树结构的目的,对决策树进行更新。最后同样借助相对多数投票法输出森林的预测结果。实验表明,本文提出的基于属性约简的决策森林方法在某些数据集上是正确有效的,在引入增量地建树方法后,算法的时间开销更少,且分类准确率与增量前相差不大。
其他文献
野菊(Chrysanthemum indicum)为多年生植物,具有抗性强、耐瘠薄、养护粗放、覆盖力强等特点,在城市园林中应用价值较高。在当今城市建筑密集、绿化空间窄小的情况下,立体绿化正
精密钢球传动具有零回差、结构紧凑、高精度、低噪音、大减速比、高效率传动等特点,在机器人手臂驱动和精密回转部位以及半导体设备晶片的反转定位部位等有广泛的应用。传动
自翻译理论产生以来,文学翻译研究就一直成为中西方学者倍感兴趣的话题。研究方法多种多样,研究视角层出不穷,从语义学、语用学到语篇分析,从文化学到社会学,不一而足。研究
平台是一个具有变革性的概念,彻底大范围的改变了商业、经济和社会。平台的崛起带来了显著的效率改进、创新能力提升和扩大的消费者选择,加速商业模式更迭,引发经济结构、组
近年来,随着移动通讯技术在全球范围内的迅猛发展和半导体器件集成化程度越来越高,对高频、高功率、高稳定性及微型化的声表面波(SAW)器件的需求日益增加。因此,提高SAW器件的
由于GMI效应具有灵敏度高、响应快、无磁滞等特点,在磁记录和传感器方面有着广泛的应用前景;另一方面,GMI效应也可作为一种工具去研究铁磁材料的磁化过程和估算出许多与GMI效应
第一部分:生物信息数据挖掘新基因预测平台的建立摘要目的:依据最新生物信息学数据库和数据挖掘技术,充分挖掘现有生物数据库内蕴含信息,建立基于生物信息和数据挖掘技术的新基
利他行为是个体自发地以他人增益为目的且不期待任何外部收益的一种社会行为。它对于生命的延续、社会的发展以及个体的生理和心理健康有着重要的作用。西方学者对社区责任感
2-咪唑啉类化合物作为生物活性分子的一个重要分支,广泛应用于生物、化学、制药等领域。然而,其合成过程经常面临着产率低、毒性高、催化剂昂贵等问题。所以一直以来,其合成
研究背景及目的:子宫内膜异位症(endometriosis, EMs)是一种常见的妇科疾病,育龄期妇女发病率高达10-15%。因病因复杂、诊断滞后、复发率高等特点,多年来始终是学者们研究的