论文部分内容阅读
在数据挖掘和机器学习领域中分类是一项非常重要的基本任务。它能对大量有关数据进行学习和分析,并建立相应问题领域中的分类模型。该技术在科学、通讯、金融等领域均有着广泛的应用。决策树分类方法作为分类知识发现的一种非常重要方法,它具有良好的可解释性、分类速度快、分类性能优越,因此,研究决策树分类器算法逐渐成为一个活跃的研究领域。
最为典型的决策树分类器学习算法是ID3算法,它采用自顶向下分而治之的策略,利用信息增益的标准选择分裂属性,能保证构造出一棵简单的树。但是它只能处理枚举型属性,不能解决过适应问题。C4.5算法很好地扩展了ID3算法,它将分类领域从枚举型属性扩展到连续值属性,同时采用剪枝策略很好地解决了过适应问题。目前它已成为现在公认的性能较优的决策树分类器算法。懒惰式决策树也是一种决策树分类器,它采取懒惰式学习策略,学习过程被推迟到分类一个给定测试实例时才进行。它从概念上为每一个测试实例建立一棵最优决策树。在小的数据集合上,它的分类精确度非常高。但是在某些大的数据集合上,特别是属性数目非常多的数据集合上,它的分类速度慢,内存消耗大。
本文在深入分析ID3算法、C4.5算法、懒惰式决策树分类器算法、朴素贝叶斯分类器算法等多种分类器算法的基础上,进一步提出了急切式和懒惰式学习策略相结合的决策树分类模型、竞争选择分裂属性的决策树分类模型、以及基于距离和权重的懒惰式分类模型等3种新的决策树分类器模型。本文将新的分类器算法与ID3算法、C4.5算法、朴素贝叶斯分类器算法进行了比较,通过大量实验验证了这些新算法的有效性和实用性,它们可以应用于求解众多实际的数据挖掘问题。