基于F-粗糙集的属性约简与数据流挖掘的研究

来源 :浙江师范大学 | 被引量 : 0次 | 上传用户:colossus198201
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在社会生产和生活实践中,人们面对的数据规模往往是巨大的,甚至是无限的。数据挖掘技术的出现很好地解决了人们通过不精确的、模糊的数据发现潜在的、有价值的信息的问题。但是,随着计算机网络技术,特别是数据收集及数据存储技术的提高,人们面对的数据不仅仅数量规模巨大,而且往往随着时间的推移而发生变化,从而引发概念漂移现象。有效的概念漂移探测方法可以帮助人们解决数据流挖掘过程中的不确定性问题。粗糙集理论是一种能够有效处理不精确、不一致、不完备信息与知识的新型数据分析工具,F-粗糙集理论是关于信息系统簇或决策系统簇的粗糙集模型,是Pawlak粗糙集理论的扩展,不仅适合研究并行计算,而且适合研究事物的动态变化。粗糙集理论与属性约简是研究不确定性问题最常用的方法之一。粗糙集与F-粗糙集属性约简是在保持决策系统分类能力不发生变化的前提下,删除其中不相关或不重要的条件属性,以达到约简条件属性的目的。现有的各种粗糙集属性约简方法几乎都是保持某种约简准则不发生变化,在这样的条件下,属性约简方法在处理一些存在异常点的数据时,往往存在泛化能力弱,分类准确率低等问题;概念漂移常用的探测方法有分类准确率、联合概率分布以及属性约简等,这些方法可以有效地进行概念漂移探测,并得到了广泛的应用。但是,这些方法在实际应用中存在着一些弊端。例如,分类准确率依赖实验或实际应用,能够从总体上把握概念漂移,但是,对于同一训练集得到的分类器,对于同一测试集,如果特征选择不同,则实验结果也可能不同。本文提出基于粗糙集理论提出可变正区域约简和基于F-粗糙集的属性依赖度和条件信息熵探测概念漂移的方法。可变正区域约简允许正区域发生一定程度的变化,能有效地将对正区域影响小的属性约简掉,对异常点检测、提高属性约简的分类泛化能力等具有一定的潜力和帮助;基于F-粗糙集的属性依赖度和条件信息熵探测概念漂移,属性依赖度和条件信息熵具有联合概率分布可进行理论分析的优点,又具有分类准确率可进行实验分析的优点。具体研究内容如下:1.提出基于粗糙集的可变正区域约简。该方法在属性约简时允许正区域发生一定程度的变化,从而约简掉给泛化能力造成一定困难的少部分属性,提高分类泛化能力和分类准确率。2.对照粗糙属性约简准则,分析了概念漂移探测准则的一些缺点和不足,联合概率分布准则具有较强的数学理论基础,适用于理论分析,但是,该标准局限于某些概念,缺乏灵活性;分类准确率准则依赖于实验或实际应用,能够从整体上把握概念漂移。但是,对于同一训练集得到的分类器,对于同一测试集,如果特征选择不同,则实验结果可能不同。3.提出基于属性依赖度和条件信息熵的概念漂移探测准则。从概念漂移的角度研究粗糙集理论的属性约简,从粗糙集理论属性约简的角度研究概念漂移;将概念漂移和属性约简进行分析比较,探究属性约简和概念漂移在不确定问题上固有的本质联系。4.实验验证了基于属性依赖度和条件信息熵的概念漂移探测准则的有效性。实验对比分析两种常用的概念漂移准则(即分类准确率和联合概率分布)与基于属性依赖度、条件信息熵概念漂移探测准则的区别与联系。
其他文献
随着我国进入到了世界贸易组织以后,施工单位首先要面临的问题就是怎样在这种新形势下有效的迎接国外建筑承包商的挑战。如果在实际操作中仍然按照以往的方式对工程项目进行管
目的探讨血清C反应蛋白(CRP)、白介素-6(IL-6)、D-二聚体(D-D)水平联合检测在下肢深静脉血栓形成(DVT)患者预后评估中的应用价值。方法选取长葛市人民医院2015年1月~2016年1月收治的D
为解决铸件废品率高的问题,采用了真空浸渗技术.介绍了真空浸渗的方法分类、浸渗工艺参数、应用范围和检验标准,并分析了浸渗失败的原因和对策.经生产应用表明,此技术可使铸
随着我国阶梯电价政策的逐步实现,智能电能表被越来越多的地区招标并使用,智能电能表的使用不仅满足了电力企业对电力数据分析的要求,而且对广大居民提供了更为方便和智能的
随着社会的不断进步发展,尽管我国的电气自动化控制设备在众多方面发挥着重要的作用,但是其可靠性有待进一步增强,我们应该将如何提升电气自动化设备的可靠性这一艰巨的任务放在
在深入分析铁路施工企业绩效考核问题的基础上,从公平、公正、公开角度出发,提出了一套基于层次分析法和模糊综合评价法相结合的考核体系.希望为我国当前铁路施工企业进行职工绩