决策树分类器算法的研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:sunning1002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据挖掘和机器学习领域中分类是一项非常重要的基本任务。它能对大量有关数据进行学习和分析,并建立相应问题领域中的分类模型。该技术在科学、通讯、金融等领域均有着广泛的应用。决策树分类方法作为分类知识发现的一种非常重要方法,它具有良好的可解释性、分类速度快、分类性能优越,因此,研究决策树分类器算法逐渐成为一个活跃的研究领域。 最为典型的决策树分类器学习算法是ID3算法,它采用自顶向下分而治之的策略,利用信息增益的标准选择分裂属性,能保证构造出一棵简单的树。但是它只能处理枚举型属性,不能解决过适应问题。C4.5算法很好地扩展了ID3算法,它将分类领域从枚举型属性扩展到连续值属性,同时采用剪枝策略很好地解决了过适应问题。目前它已成为现在公认的性能较优的决策树分类器算法。懒惰式决策树也是一种决策树分类器,它采取懒惰式学习策略,学习过程被推迟到分类一个给定测试实例时才进行。它从概念上为每一个测试实例建立一棵最优决策树。在小的数据集合上,它的分类精确度非常高。但是在某些大的数据集合上,特别是属性数目非常多的数据集合上,它的分类速度慢,内存消耗大。 本文在深入分析ID3算法、C4.5算法、懒惰式决策树分类器算法、朴素贝叶斯分类器算法等多种分类器算法的基础上,进一步提出了急切式和懒惰式学习策略相结合的决策树分类模型、竞争选择分裂属性的决策树分类模型、以及基于距离和权重的懒惰式分类模型等3种新的决策树分类器模型。本文将新的分类器算法与ID3算法、C4.5算法、朴素贝叶斯分类器算法进行了比较,通过大量实验验证了这些新算法的有效性和实用性,它们可以应用于求解众多实际的数据挖掘问题。
其他文献
随着嵌入式技术和无线移动网络技术的快速发展,嵌入式移动装置已经广泛应用于社会生活的各个领域;移动装置自身的无线移动通信方式和计算资源的限制,使得移动装置在实际应用环
空间遥感技术的发展在经历了由黑白(全色)、彩色、多光谱成像三个阶段后,在二十世纪八十年代初进入了一个新阶段,即高光谱遥感阶段。高光谱遥感技术的发展使人的视觉得到了有效的
作为产品设计制造的一种手段,20世纪90年代初,逆向工程技术开始引起各国工业界和学术界的高度重视。随着计算机技术及测量技术的发展,逆向工程已经成为新产品开发、消化以及
随着高性能计算应用的日益增多,传统的高性能计算机在可扩展性和计算成本上不能完全满足需求,而网络技术的快速发展,使得利用网络计算模式进行高性能计算具有高扩展、低成本
网络已经成为人们日常生活的一个重要组成部分。人们的网络安全意识也日益加强,而数字签名(即电子签名)的设计,分析和研究,在某种程度上还是较滞后的。所以数字签名的研究对网络
移动自组网(Ad Hoc网)作为一种无中心、自组织的无线移动通信网络,由于其高效的自组性,支持动态变换的网络拓扑结构和多跳转发技术,以及无中心节点的鲁棒性和抗毁性,使其广泛运用
随着Internet的飞速发展,Web已经成为一个海量的、动态的、异构的信息资源库。这使得一方面出现“信息爆炸”,而另一方面,人们迫切需要从Web上快速、有效的获取信息和知识。W
蛋白质构形预测问题就是根据组成蛋白质的氨基酸序列来预测其空间折叠结构。蛋白质是一类重要的生物大分子,是生命活动的主要承担者。研究蛋白质的根本目的是要将天然蛋白质
移动数据库技术是分布式数据库技术和分布式计算研究的重要分支。移动数据库是为了适应移动计算环境下的数据存取需求而产生和发展起来的,通常可以看作是传统分布式数据库的