论文部分内容阅读
关联规则挖掘是数据挖掘的一个非常重要的研究分支,难点在于其挖掘对象是海量数据。Apriori算法需要对数据库进行多次扫描,在真正的海量数据库挖掘中难以实用; FP-Growth算法相对于Apriori算法在效率上提高了一个数量级,但内存消耗大,在海量级数据库实现上也存在困难。当前国内外研究关联规则的文献很多,大多数集中在对上述两个算法的改进上。本文研究如何由已知的事务数据库求出其相应的频繁项集和如何对由最大频繁项集生成的关联规则进行有效性检验。本文针对频繁项集挖掘分类提出了基于TD处理事务数据表的频繁项集挖掘算法,分别用于产生完全频繁项集、频繁闭项集和最大频繁项集。算法在整个挖掘过程中,只需要扫描一次事务数据库。在由最大频繁项集生成关联规则的时候,可能会产生大量的冗余规则,这使得用户分析和利用这些规则变得十分困难。本文对已有的多种关联规则删剪技术进行了研究,发现了它们存在的问题,提出把约束性作为一种新的删剪技术。将基于TD处理事务数据表的频繁项集挖掘算法应用于Mushroom数据库的频繁项集挖掘中,并通过算法分析说明本文提出的基于TD处理事务数据表的频繁项集挖掘算法在算法执行时间和空间的消耗上要优于FP-Growth算法。