论文部分内容阅读
关联规则是数据挖掘领域的一个重要分支,它反映的是大量数据中间内在的关联联系,其目的是找出满足最小支持度和最小置信度要求的强关联规则。频繁项集挖掘是关联规则挖掘的关键步骤,也是数据挖掘的热点和难点问题。可见,频繁项集挖掘是一个具有重要理论意义和广阔应用前景的研究课题。频繁项集挖掘算法研究。本文在对关联规则挖掘问题简述的基础上,深入地探讨了典型的频繁项集挖掘算法Apriori和FP-Growth,并关注了几种改进的频繁项集挖掘算法,介绍了频繁项集挖掘问题的最新扩展。基于矩阵改进频繁项集挖掘。本文提出了一种改进的基于矩阵的频繁项集挖掘算法。该算法汲取了经典频繁项集挖掘算法的基本思想,引入了一种新的数据结构:IMoFI。该算法采用类似指针原理的间接寻址方式的索引技术,对位图模式存储的候选项集矩阵进行了内部编码,使矩阵IMoFI的元素不仅仅描述某个特定的频繁项目在某事务中的出现,而且描述频繁项目下次出现时所在事务的序号。结合辅助向量AV的使用,算法避免了候选项集的重复存储,有效地压缩了矩阵IMoFI的存储代价。通过以上改进,该算法为快速搜索频繁项目集合提供了非常有效的方法,从而提高了频繁项集挖掘的效率。本文在.NET环境下,用C#语言实现了该算法,并令其与经典的频繁项集挖掘算法进行了比较,发现该算法在短模式数据上具有良好的性能,并对该算法提升挖掘性能的原因进行了归纳。