论文部分内容阅读
频繁项集挖掘可以广泛应用在关联规则挖掘、相关性分析、入侵检测、序列模式、分类和聚类等多种数据挖掘任务中。迄今为止已经提出了许多高效的频繁项集挖掘算法。本文对大量频繁项集挖掘算法进行了深入的研究,重点分析了几种经典模式增长算法中事务数据库在内存中的存储结构,以及各种有效的实现技术,并在此基础之上提出了新的算法。首先,对关联规则和频繁项集挖掘的相关概念、研究现状及所面临的问题进行了分析研究。并对几种典型的频繁项集挖掘算法进行了详尽分析,比较了它们各自的优缺点及适用环境。其次,对大量已有算法中事务数据库在内存中的存储结构,以及各种有效的实现技术进行了详细研究,重点分析了几种经典模式增长算法采用的数据结构和挖掘策略。最后,对三种采用的技术—FP-Tree、FP-Array以及Bitmap-Count进行了详尽地探讨,并在此基础上设计出了一种新的频繁项集挖掘算法—MS-Miner。实验结果表明MS-Miner算法不仅在算法执行性能上更优,而且在内存消耗和可扩展性上都有较好的表现,是一个高效的频繁项集挖掘算法。