论文部分内容阅读
关联分类法将关联规则挖掘技术应用于分类领域,构建了一种新的更准确的分类器。由于关联规则挖掘在挖掘大量数据之间的并发的潜在相关性方面的优势和良好的扩展适应性,使得在其基础上的关联分类技术有广阔的应用空间。实验结果显示,一般情况下,该类算法的分类准确度要优于传统的分类系统C4.5。但是已提出的关联分类算法处理庞大规则非常困难,鲁棒性不高,也经常受到过适应现象的干扰,限制了在噪声数据干扰情况下这类算法的应用。
我们的目标是在已有关联分类算法的基础上,克服训练数据集中的噪声干扰,提供一种适应性较强的稳定的同时具有较强预测能力的关联分类器。为此,本文做了如下研究:
1.在对过适应问题和算法鲁棒性问题进行深入研究。
2.在关联分类器构建中引入项集压缩表示方法概化闭包项集挖掘思想,在L3G分类器的基础上,构建一种基于概化闭包压缩规则的具有弹性容忍噪声性能及较强预测能力的关联分类器-ACGCCR分类器。
3.针对非平衡类分布下算法的适应性情况,改进原概化闭包挖掘中的容忍限度值的设置方法,提出根据类分布状态自适应调整设置容忍限度值的方法。
4.针对概化思想在规则领域中的应用区别,提出概化闭包类规则裁剪技术。既裁掉冗余信息,又控制了概化的程度,减少压缩后规则置信度信息的损失,避免过度概化造成学习能力不足的问题。
5.通过大量实验,对比ACGCCR算法和其它关联分类算法的性能,验证ACGCCR算法的有效性。并将算法集成到公路养路费征收管理与分析决策系统中应用,效果良好。
通过大量实验证明,改进后的ACGCCR算法分类规则数大量减少,概化闭包类规则裁剪技术对控制过度概化效果明显,算法鲁棒性增强,能克服噪声数据的干扰,预测准确度也得到了提高,具有更强的适应能力,因此具有很好的应用前景。