论文部分内容阅读
随着数据库技术的成熟和知识发现等领域技术的不断发展,数据挖掘技术应运而生,并在越来越广阔的领域得到应用和发展。粗糙集方法是一种重要的数据挖掘方法,是由波兰科学家Z.Pawlak教授于1982年提出的一种处理不精确、不一致、不完整等各种不确定信息的强有力的数学工具。其主要思想是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则,而且在没有提供任何先验信息的前提下,其也能有效地处理和分析各种不确定数据信息,并从中发现隐含的知识,揭示潜在的规律。近年来,粗糙集理论已经在数据挖掘、决策分析、人工智能、模式识别等诸多领域都得到了成功的应用。进一步探索更加高效的分类和属性约简算法是目前国内外研究的热点。
本文将数据挖掘理论、粒度计算理论以及遗传算法理论三者有效结合,对于如何改进决策树分类算法和属性约简算法进行了深入地研究,主要工作包括以下几个方面:
(1)对数据挖掘(Data Mining)技术进行了总体上的概述,包括数据挖掘的定义、研究的现状以及当前存在的问题、一般过程、主要研究方法和技术,为在这一领域进行更深入的研究打下了良好的基础。在此基础上对现有决策树分类算法和属性约简算法进行了综述,并对各种现有算法进行了比较和分析。
(2)提出一种基于属性支持度的决策树算法(DTBAS算法),该算法首先在粒度计算理论基础上提出了属性支持度的概念,然后将其作为决策树构造中选取测试属性的标准。实验结果表明DTBAS算法较ID3算法、C4.5算法分类精度更高、计算量更小。
(3)提出一种基于改进的自适应遗传算法的属性约简算法(MGAAR算法),该算法主要做了三点改进,引入了属性核以对随机产生的二进制初始种群加以限制,在适应度函数中引入了条件属性对决策属性的支持度,并对交叉概率和变异概率进行了新的设定。通过实验分析表明该算法大大减少了迭代次数。