论文部分内容阅读
FP-growth算法是当前挖掘频繁项目集算法中应用最广,并且不需要候选集的一种挖掘关联规则的算法。但是,FP-growth算法在挖掘大型数据库时占用内存大和运行速度慢。为了克服这些不足,本文基于FP-growth算法提出了两种新的适合于挖掘大型数据库的关联规则算法,即EFP-growth和LFP-grwoth。EFP-growth算法利用项集等价类将关联规则挖掘的项集分成互不相交的子空间的性质,将一个大型数据库分解成多个投影数据库,依次在每一个投影数据库上进行约束频繁项集挖掘。算法尤其适合支持度较小时的大型数据库的挖掘。分析和实验表明EFP-growth算法在挖掘大型数据库时时间和空间的性能上均优于FP-growth算法。而且,随着数据库规模的增大,EFP-growth算法具有更明显的优势。LFP-grwoth算法将原来的搜索空间(格)划分成若干个更小的子空间(子格),通过子格间的迭代分解,将对网格P(I)的频繁项集挖掘转化为对多个子网格的并集进行的约束频繁项集的挖掘。实验结果和理论分析表明,LFP-growth算法在挖掘大型数据库时时间和空间的性能上均优于FP-growth算法。而且,随着数据库规模的增大或支持度阈值的减少,LFP-growth算法具有更明显的优势。本文还介绍了EFP-growth算法和LFP-grwoth算法挖掘频繁项集的一个应用实例。