论文部分内容阅读
数据库知识发现(KDD)与机器学习相比,它的一个很重要的特点就是数据量巨大,因此要求学习的效率必须很高;另外,由于数据库知识发现最终是面向人的,因此人们也希望获取的规则能尽量地简洁。目前已有多种模型被提出,在这些模型中,决策树尤其适用于数据挖掘,因此,我们的重点在于构造决策树,并从决策树中提取分类规则。
在决策树学习算法中,颇具影响的是ID3算法的改进算法C4.5方法,该方法先生成决策树,然后将其转换为规则。但是由于构造过程中没有考虑树的深度,节点的个数等问题,C4.5方法得到的规则集并不一定是最简的,所以有必要对C4.5方法加以改进。本文首先利用可辨识矩阵生成的属性核改进了极小化方法,然后利用改进的极小化方法对C4.5决策树规则进行处理,给出了一种决策树最简规则获取方法,使得决策树规则得到有效的简化。在本文的最后,进行了仿真实验,并对实验测试结果进行了分析。实验结果表明,采用本文方法既能简化单个规则,又能使规则的总长度减少。同时,在简化规则的基础上还可以使得算法的正确识别率有所提高。