论文部分内容阅读
数据挖掘是数据库研究最活跃、最令人激动的领域之一。它出现于20世纪80年代后期,90年代有了突飞猛进的发展,并有望在新千年继续繁荣。这是一个交叉学科领域,融合了数据库技术、人工智能、统计学等多个领域的理论和技术,目前已成为国际上信息决策领域最重要、最有前途的前沿研究方向之一。粗糙集理论是20世纪80年代初由波兰数学家Z.Pawlak提出的一种处理模糊和不确定性知识的数学工具。近年来,随着理论的不断完善,及其在数据挖掘中的成功应用,受到了国际上的广泛关注。
属性约简是粗糙集数据挖掘方法中最重要的概念和思想。属性约简(也叫特征选择),就是在不降低信息系统分类能力的基础上,用能区分所有对象的最小属性子集代替原来的属性集。约简使得相同的决策通过更少量的条件得出,经过一些较少的判断就可得出同样精度的结果。它提高了数据的质量,加快了挖掘的速度,并使得挖掘出的规则更易理解。
不断发展的计算机信息技术对属性约简在处理速度、准确性和噪声处理等方面提出了越来越高的要求。寻找高效的属性约简算法仍然是人们关心的热门问题之一。本论文的主要工作如下:
1)系统分析归纳了数据挖掘技术和粗糙集理论的研究进展和发展方向。
2)求解决策表的所有属性约简以及最小属性约简都是NP-hard问题,主要原因是属性组合爆炸,当数据库规模较大时问题尤为突出。人工智能中,解决这类问题的一般方法是采用启发式搜索,通过向算法中加入启发信息减少问题求解的搜索空间来简化计算。本文首先系统阐述了Pawlak粗糙集模型以及决策表、区分矩阵和约简等基本概念,并在此基础上着重介绍了启发式属性约简的几种典型算法。
3)模糊-粗糙属性约简是一种有效的启发式算法,主要用于处理连续值属性决策表的约简。实验表明,它优于传统的基于熵、基于主成分分析以及基于随机性的维归约技术等方法。本文对现有的基于模糊粗糙集的两种属性约简算法进行了比较研究,从计算复杂度、约简结果以及算法收敛性等方面进行了对比分析,并找出了现有算法存在的不足,即缺乏对噪声数据的处理机制。基于变精度粗糙集和模糊粗糙集相融合的思想,论文引入变精度模糊粗糙集模型,用于现有算法的改进。新算法不仅保留了原算法的所有优点,对噪声数据也具有一定的容错能力,从而增强了其在实际问题处理中的鲁棒性及适应新情况和知识预测的能力。
4)决策规则获取是数据挖掘的一个重要课题。本文讨论了基于子集邻域的规则归纳算法。该算法直接作用于模糊离散技术处理后产生的模糊决策表,并从中提取有效的模糊决策规则。