论文部分内容阅读
数据流是一种潜在无限的、连续快速的、随时间不断变化的数据序列,挖掘数据流中的频繁模式已成为数据挖掘的研究热点之一,许多数据流频繁模式挖掘算法被陆续提出。由于数据流中的频繁模式数量可能巨大,致使生成的关联规则数量也巨大,且含有很多冗余、无用的规则,不便于理解和把握。采用频繁闭合模式可以在信息无损失的情况下大大减少频繁模式的表示规模,已经成为一个重要的研究课题。本文对数据流中的频繁模式挖掘进行了研究,主要工作如下:(1)概述数据挖掘的研究背景,数据挖掘的主要任务,描述了数据挖掘中关联规则问题的定义、方法及主要算法等。(2)描述了数据流的特点和数据流管理模型,重点讨论了几种经典的数据流频繁模式挖掘算法。(3)阐述了频繁闭合项集的数学理论基础和定义,以及与频繁项集的关系,详细描述了挖掘数据库中频繁闭合项集的经典算法Closet。(4)在对数据流中的频繁模式挖掘问题的研究基础上,提出一种新的算法(AMFCIDS)来挖掘数据流中的频繁闭合模式,该算法采用DSFCI-tree结构存贮数据流中的频繁闭合模式,并随着数据流的流入不断更新DSFCI-tree结构,从而有效地挖掘整个数据流中的频繁闭合模式。实验及分析表明了该算法的有效性。