论文部分内容阅读
数据流是一种海量并潜在无限的、连续快速的、并随着时间快速变化的有序数据序列。由于数据流本身的特性,使得传统的频繁模式算法难以适用。作为数据挖掘研究领域的热点之一,频繁模式挖掘已成为数据流挖掘中的基础任务,并得到了广泛的深入研究和应用。 针对数据流特点,论文概述数据流挖掘的研究背景及主要任务,并对数据流现状、处理模型、处理技术和关键问题进行了分析研究,并对一些现存的数据流频繁模式挖掘经典算法进行了介绍和总结。 在此基础上,本文提出了一种基于数据流的实时近似频繁项挖掘算法ECP-Stream和基于滑动窗口的数据流闭合频繁项集挖掘算法WHCFP-Stream。ECP-Stream算法使用ECD-tree结构保存数据流中频繁项,随着数据的流入不断更新结构,同时提高删除过期数据的时间效率,并保证输出数据的精度,满足在线实时处理的分析要求。理论分析和真实数据及模拟数据实验结果表明该算法具有很好的效率。基于滑动窗口模型的WHCFP-Stream算法采用WHCFP-tree结构保存数据流中的闭合频繁模式,随着数据流的流入,采用深度优先遍历删除过期数据,并简单快速的插入新的闭合项集。理论分析和真实数据实验表明了该算法的有效性。