数据流环境下的实时关联规则挖掘研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:hero_1205
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
20世纪90年代初,R.Agrawal等人提出了关联规则挖掘技术。关联规则挖掘是为了发现大量数据中项集之间有趣的相关性信息。经过十余年的发展,关联规则挖掘已经成为数据挖掘技术中较为成熟并且十分重要的一种方法。数据流是一种新型的数据,出现在许多最新的应用领域中,如网络监控、金融服务、股票交易、传感器网络等。传统的数据挖掘算法只能处理静态数据库,因此对这种大量的、无穷无尽的数据流是无能为力的。随着数据流应用的不断增多,数据流环境下的数据挖掘技术受到了越来越多的关注。不同于传统数据库的处理,数据流处理技术并不保存整个数据集,而是仅维护一个远小于其规模并能近似表示整个数据集的概要数据结构,从而能够常驻内存。用户仅针对概要数据结构进行查询操作,以保证系统响应的实时性,得到的结果为近似结果。滑动窗口是一种常用的数据流模型,它只考虑最近的若干个数据元素,解决了数据的时效性问题,更符合实际的应用。文章结合数据流的特点,提出了一种新的基于滑动窗口的频繁模式挖掘算法:DSFPM。算法分块挖掘数据流,在内存中维持一个用于保存所有潜在的频繁模式信息的存储结构DSFPM-Tree,并在各个基本窗口进入滑动窗口后动态更新该存储结构。频繁闭合项集提供了频繁项集的一种在不丢失支持度信息前提下的最小表示。算法仅处理和保存各个基本窗口的临界频繁闭合项集,极大地提高了时间和空间效率。文章在合成数据集上设计和实现了数据流环境下的频繁模式挖掘实验。实验结果表明,应用DSFPM在数据流环境下进行频繁模式挖掘是可行的和有效的。
其他文献
随着应用需求的扩展和技术的不断进步,多核已经开始在传统PC,甚至嵌入式系统广泛应用。正因如此,多核环境下的并行应用,实时计算也成为研究的热点,但是这些都需要从操作系统
并行程序设计是并行计算中一个公认的难题。其中一个重要原因在于缺乏系统的开发并行程序的方法及其支持工具。现有的大多数并行程序设计模型本质上是对并行程序编码的研究,
近年来,随着我国通信网络基础设施的快速建设,视频会议系统由于可以为处于多点的与会者提供音视频等多种信息,节省大量费用,提高工作效率,因而发展迅速。由于H.264编码更加节省码流
无线传感器网络是最近几年来颇受世界关注的一种网络技术,与当前的移动通信网络、无线局域网等相比较,无线传感器网络具有很大的发展潜力。首先,无线传感器网络是无需基础设
P2P(Peer-to-Peer)技术被视为21世纪计算机技术的热点技术之一,随着网络技术的飞速发展和个人计算机性能的增强,互联网的计算模式正经历着从C/S模式向P2P模式的转变。高效的资源
在现代科学研究和应用领域中,大量的数据是重要的资源。地理上广泛分布的科研工作者或用户都希望能够访问和分析这些庞大的数据。另一方面,海量的科学数据分布在各种自治管理域
传统的人工阅卷缺乏对阅卷过程的有效监督,难以保证考试公平公正的要求,阅卷的对象是纸质试卷,对试卷的运输、保存和查阅等工作需要大量的人力。随着计算机技术、网络技术、
数字图像压缩是图像处理领域的一个热门研究课题,其研究成果为图像的存储、传输带来了极大的便利,因而具有重要的研究价值。在众多的图像压缩方法中,基于小波变换的图像压缩方法
随着游戏产业的飞速发展,3D游戏引擎的研究受到了前所未有的关注。一个好的3D引擎是构成一款高性能游戏的基石,它包含了物理学,计算机图形学,人工智能等多个学科的研究成果。它所
蛋白质结构预测问题是计算生物学领域的核心问题之一,对其求解是后基因时代蛋白质工程的一项重要任务。已经证明,即使按最简化的数学模型,所导出的问题仍然是NP难度的。因此,蛋白