论文部分内容阅读
多层关联规则挖掘是关联规则领域里的一个重要研究方向,而作为多层关联规则挖掘中最耗时的部分——频繁模式挖掘,其算法的好坏直接影响到关联规则挖掘的效率。因此,设计高性能的频繁模式挖掘算法具有重要意义。本文在对FP-tree结构深入分析的基础上,提出了两种频繁模式挖掘算法。针对FP-growth算法时间效率不高的不足,提出了一种新的基于FP-tree的频繁模式挖掘算法FPIFS算法。该算法在FP-tree中的每一个节点域中增加了一个前缀路径域,用于存放该节点的所有前驱。当遍历FP-tree的时候,只需扫描几个节点,就可以求出大部分节点的前驱。当处理这些节点的父节点的时候,就不需要重复扫描这些路径,避免了在挖掘过程中对同一路径进行多次回溯,从而提高了时间效率。针对现在的大多数多层关联规则挖掘算法只能挖掘同层次的关联规则,提出了一种基于FP-tree的多层关联规则挖掘算法FP-ML算法,该算法首先找出那些在当前层不频繁,而其父项却是频繁的项,采用一种替换策略,将其用父项来取代,然后再调用FPIFS算法对新的交易记录进行挖掘,最终挖掘出不同概念层的频繁模式。将FPIFS算法与FP-ML算法分别跟FP-growth算法和MLAR-FP算法在T10I4D100K数据集与真实数据集——retail数据集上进行实验比较分析,结果表明FPIFS算法的时间效率优于FP-growth算法,其稳定性较FP-growth算法要好;FP-ML算法的时间效率优于MLAR-FP算法,其稳定性较MLAR-FP算法要好。