增量更新关联规则挖掘方法的研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:Orange_zz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今社会是一个信息社会,信息瞬息万变。大量信息在给人们带来方便的同时也带来了一大堆问题:第一是信息过量,难以消化;第二是信息真假难以辨认;第三是信息安全难以保证;第四是信息形式不一致,难以统一处理。如何才能不被信息淹没,而是从中发现有用的知识,提高信息利用率?面对这一挑战,数据挖掘技术应运而生。关联规则是数据挖掘中一个很重要的分支,它能发现事物之间的关系,从而得到数据内部潜在有价值的信息。随着时间的推移,数据库总是在不断的变化,于是如何高效地从更新后的数据库中对已经推导出的关联规则进行更新成为人们探究的热点。已有的成熟的增量更新关联规则挖掘方法大致可以分为两类:一类是基于Apriori算法,如FUP1、FUP2算法等,另一类是基于FP树算法,如FIUA2算法等。这两类算法都有自身的缺点,前者的缺点是需要多次扫描数据库,很耗时间,后者的缺点是需要多次生成条件FP树,很耗空间。本文在总结前人算法的优缺点的基础上,给出了基于图的关联规则增量更新挖掘算法,算法充分考虑了挖掘需要,只需要扫描一次数据库,并且减少了冗余候选集的生成,在提高空间使用率的同时又提高了挖掘效率。本文所作的工作有:首先,对已有的经典算法及其改进算法进行了深入的研究,包括Apriori算法、FP树算法、FUP算法、DLG算法等,分析了这些算法的优缺点。对一些新颖的算法技术进行了探讨和学习,如数值型数据集的处理问题、模糊约束概念等。其次,给出了图的四叉链表存储结构,分析了该结构引入的优点,并且基于该结构给出了完全频繁项集挖掘算法GIU1和最大频繁项集挖掘算法GIU2,给出了算法描述和实例演示。再次,鉴于图的优点,将图的结构拓展到模糊时态的数据集增量更新挖掘应用中,给出了模糊时态增量更新完全频繁项集的挖掘算法FuzzyGIU,分析了图在模糊时态环境下使用的合理性和有效性,并对算法进行了描述和实例演示。最后,对这些算法进行了仿真实验,并与相关的已有算法进行了性能对比。结果表明了本文给出的基于图存储结构的几个算法在数据集规模和最小支持度各自变化时的挖掘效率表现都比已有算法好,从而验证了这些算法的有效性。
其他文献
随着信息时代的来临,企业数据量正成爆炸式增长,企业的生存对数据的依赖程度越来越高。当灾难发生时,如何迅速完整的恢复数据,是当前最受工业界和学术界普遍关注的问题之一。集中
无线传感器网络(WirelessSensorNetworks,WSNs)因其广泛的应用而备受关注,其在军事、经济、科技和生活等方面具有非常巨大的使用潜能以待发掘和研究,是近年来比较热门的研究课题。
随着人工智能和计算机科学技术的不断发展,智能Agent系统在越来越多的领域起到举足轻重的作用。对于智能Agent系统而言最主要的问题就是适应周围动态变化的环境和对任务进行动
随着信息技术的迅速发展,许多企业为了提高管理水平,纷纷建立了自己的信息管理系统。但是这些信息系统的数据源彼此孤立,数据存储方式可能各不相同,难以实现数据共享,从而形成了信
枣树为我国第一大干果树种,也是重要的药用植物和生态经济树种林。随着枣树栽培面积和规模的迅速扩大,枣树病虫害的发生和危害也逐年严重,给枣农带来巨大的经济损失。针对枣
企业资产管理系统(Enterprise Asset Management System,简称EAMS)是一种具有工作流特性的信息化解决方案。它不仅可以帮助资产密集型企业更加高效地完成对资产设备的跟踪、
本文提出了一种基于遗传算法的基因杂交方法。该方法通过对传统基因杂交方法的研究和生命信息的分析来获得基因的数字化信息,通过使用自适应遗传算法来进行杂交。在自适应遗传
网络态势指由多种网络设备的运行状况和网络行为、用户行为等构成的整个网络当前的状态和变化趋势。网络态势感知技术是一种能够评价当前以及未来一段时间内网络安全状况,并且
从相当规模中的数据中发现数据的模式规律是数据挖掘的意义所在,数据挖掘作为一门学科,刚开始时是针对传统意义上的数据库中的数据而言的。伴随着数据库挖掘技术的成熟,人们
车牌的自动识别技术在智能交通系统中的作用十分重要,广泛的应用于电子警察、高速公路监管与收费、停车场出入管理等领域。而车牌字符的自动识别准确率一直受到图像质量的影