论文部分内容阅读
数据挖掘是一种可以从海量数据中智能的和自动的抽取一些有用的、可信的、有效的和可以理解的模式的过程,也被称之为数据库中的知识发现。分类是数据挖掘的一种非常重要的方法。分类的概念是在已有数据的基础上学会一个分类函数或构造出一个分类模型,即分类器。该函数或模型能够把数据库中的数据记录映像到给定类别中的某一个。分类方法拥有大量的应用实例,如金融市场走向分析、顾客信用度分析、医疗诊断等。 决策树是数据挖掘中一种应用最为广泛的分类器。其原因如下:1、决策树分类的直观表示方法较容易转化为标准的数据库查询;2、决策树分类归纳的方法行之有效、尤其适合于大型数据集;3、决策树在分类过程中,除了数据集中已包括的信息外,不再需要其他额外的信息;4、决策树分类模型的预测准确度较高。 文章在介绍了一些典型的决策树分类算法的基础上,研究了一种基于相关性分析的决策树分类器。其主要思想是通过属性相关性来压缩训练集的大小并在建立决策树过程中采用此度量值来确定划分条件属性的顺序,通过阈值设定和处理简化了决策树的剪枝和优化过程,提高了处理的效率和规模。文章最后详细描述了算法的执行过程以及正确性证明和时间复杂性分析。