论文部分内容阅读
在社会生产和生活实践中,人们面对的数据规模往往是巨大的,甚至是无限的。数据挖掘技术的出现很好地解决了人们通过不精确的、模糊的数据发现潜在的、有价值的信息的问题。但是,随着计算机网络技术,特别是数据收集及数据存储技术的提高,人们面对的数据不仅仅数量规模巨大,而且往往随着时间的推移而发生变化,从而引发概念漂移现象。有效的概念漂移探测方法可以帮助人们解决数据流挖掘过程中的不确定性问题。粗糙集理论是一种能够有效处理不精确、不一致、不完备信息与知识的新型数据分析工具,F-粗糙集理论是关于信息系统簇或决策系统簇的粗糙集模型,是Pawlak粗糙集理论的扩展,不仅适合研究并行计算,而且适合研究事物的动态变化。粗糙集理论与属性约简是研究不确定性问题最常用的方法之一。粗糙集与F-粗糙集属性约简是在保持决策系统分类能力不发生变化的前提下,删除其中不相关或不重要的条件属性,以达到约简条件属性的目的。现有的各种粗糙集属性约简方法几乎都是保持某种约简准则不发生变化,在这样的条件下,属性约简方法在处理一些存在异常点的数据时,往往存在泛化能力弱,分类准确率低等问题;概念漂移常用的探测方法有分类准确率、联合概率分布以及属性约简等,这些方法可以有效地进行概念漂移探测,并得到了广泛的应用。但是,这些方法在实际应用中存在着一些弊端。例如,分类准确率依赖实验或实际应用,能够从总体上把握概念漂移,但是,对于同一训练集得到的分类器,对于同一测试集,如果特征选择不同,则实验结果也可能不同。本文提出基于粗糙集理论提出可变正区域约简和基于F-粗糙集的属性依赖度和条件信息熵探测概念漂移的方法。可变正区域约简允许正区域发生一定程度的变化,能有效地将对正区域影响小的属性约简掉,对异常点检测、提高属性约简的分类泛化能力等具有一定的潜力和帮助;基于F-粗糙集的属性依赖度和条件信息熵探测概念漂移,属性依赖度和条件信息熵具有联合概率分布可进行理论分析的优点,又具有分类准确率可进行实验分析的优点。具体研究内容如下:1.提出基于粗糙集的可变正区域约简。该方法在属性约简时允许正区域发生一定程度的变化,从而约简掉给泛化能力造成一定困难的少部分属性,提高分类泛化能力和分类准确率。2.对照粗糙属性约简准则,分析了概念漂移探测准则的一些缺点和不足,联合概率分布准则具有较强的数学理论基础,适用于理论分析,但是,该标准局限于某些概念,缺乏灵活性;分类准确率准则依赖于实验或实际应用,能够从整体上把握概念漂移。但是,对于同一训练集得到的分类器,对于同一测试集,如果特征选择不同,则实验结果可能不同。3.提出基于属性依赖度和条件信息熵的概念漂移探测准则。从概念漂移的角度研究粗糙集理论的属性约简,从粗糙集理论属性约简的角度研究概念漂移;将概念漂移和属性约简进行分析比较,探究属性约简和概念漂移在不确定问题上固有的本质联系。4.实验验证了基于属性依赖度和条件信息熵的概念漂移探测准则的有效性。实验对比分析两种常用的概念漂移准则(即分类准确率和联合概率分布)与基于属性依赖度、条件信息熵概念漂移探测准则的区别与联系。