论文部分内容阅读
数据挖掘(Data Mining)是指从大量的结构化和非结构化的数据中提取有用的、有意义的信息和知识的过程。随着数据挖掘研究的不断深入和发展,数据挖掘已经广泛应用到多种领域中。关联规则是数据挖掘研究中一个较早的、有意义的研究课题,它主要用于发现隐藏在大型数据库集中的令人感兴趣的、隐含的、事务之间的联系。在关联规则的产生过程中,频繁模式的挖掘是产生关联规则的第一步,如何有效的挖掘频繁模式一直以来就是研究关注的热点。在大型数据库中,虽然利用有效的算法能有效的提高频繁模式挖掘的效率,但是随着支持度的降底频繁模式的产生数量会逐渐增大,其中有些频繁模式对用户来说可能是毫无用处的,不能为自己的下一步工作提供有效的信息。本文研究的内容主要包括以下几个方面:1.深入研究两种不同策略的频繁模式挖掘方法,广度优先搜索策略和深度优先搜索策略。在参考频繁闭项集挖掘算法Closet、Closet+和FP-Close的基础上,设计了基于被约束子树的频繁闭项集挖掘算法FP-FCI,该算法是一个深度优先算法。从算法分析和实验比较显示:对于密集型数据,FP-FCI算法在时间和空间开销上均有不同程度的提高。2.在挖掘的频繁闭项集的基础上,对频繁闭项集的内容进行分析说明,并设计了频繁闭项集相关联的事务的提取方法和相似频繁闭项集的研究算法——AFHC算法。