基于滑动窗口的数据流关联规则挖掘研究

来源 :浙江大学计算机学院 浙江大学 | 被引量 : 0次 | 上传用户:dewuwangwo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据流作为信息化时代的产物,广泛应用于社会生活的各个领域。数据流中蕴含着丰富的知识,特别是海量数据下存在的关联关系,在预测和在线分析系统中都是重要的决策依据。现有对关联规则挖掘的研究,大多集中于事务模型,鲜有在独立数据项粒度上的研究。而在特定应用环境中,独立数据之间总是存在定的相生关系。由于数据流的实时性特点,用户又往往对最新产生的数据所包含的信息更感兴趣。为了实时而全面地获取最近一段时间内数据项之间的关联规则,本文提出了滑动窗口模型下,基于划分思想的MARSW(Mining Association Rules on Sliding Window)算法。MARSW算法将滑动窗口分割为一系列子窗口,通过对子窗口的操作维护整个窗口的概要数据结构。大量的仿真实验表明,MARSW算法在给定的误差范围内,能以有限的空间代价实时挖掘滑动窗口下数据项之间存在的所有关联规则,并具有较高的效率和优良的可扩展性。考虑到实际应用环境下数据的多变性和流量的不可控性,关联规则算法需要借助数据流管理系统提供预处理。由于数据流管理系统尚未形成一致认可的标准,本文提出了基于多种数据流管理系统的Federator结构。通过创建内置运算子或接管系统的输入输出,在统一接口模型下,关联规则挖掘算法可以快速、高效地融合于数据流管理系统中。关键词:数据流,关联规则挖掘,滑动窗口,数据流管理系统。
其他文献
我国汽车产业和交通事业的迅速发展和车辆的普及化以及无线传感器网络的快速发展,对车辆性能检测提出了更高的要求。目前,有些地方无法实现车辆检测设备的安装和检测网络的建设
随着互联网的快速发展和人们对信息需求的迅速增加,语义网(Semantic Web,又称语义Web)作为研究和处理海量信息的先进技术成为Web信息研究领域的主要目标之一。语义Web改进了
随着面向银行等典型行业的支持事务处理、信息服务、金融计算应用的深入发展,对计算机系统的计算性能要求不断提高的同时,还要求其能够高速地、不间断地、实时处理各类事务处
VoIP是当前最流行的通讯词汇,它的应用正变得越来越广泛,且几乎涉及到每一个行业。而企业集团IP分布式呼叫中心系统则是最近出现的朝阳产业,它给企业带来了新的机遇和运行模
网络模拟由于其成本低廉、模拟精确度高等特点,越来越受网络研究人员的青睐,成为研究网络行为的必不可少的手段。然而,由于硬件资源的限制,现有网络模拟工具无法完成对大规模
视频广告为商业繁荣发挥了积极作用。电视广告中也存在着虚假违法、内容庸俗、夸大宣传等现象,造成了恶劣的社会影响,损害了媒体的社会公信力。同时,违规网络视频广告也呈泛
随着网络规模不断扩大,网络复杂性不断增加,网络故障问题越来越突出。本文针对传统故障诊断中存在的问题,深入地研究了关联规则挖掘与分类挖掘两种数据挖掘方法,并应用于故障
随着社会和经济的快速发展,人们进入读图时代,以图作为研究对象的应用陆续出现。然而,这些研究均存在着图像底层特征与高层语义特征间“语义鸿沟”问题,并且该问题一直是图像
数字化陈展交互作为博物馆陈展的有效手段,近几年来,在博物馆和展览场馆中的应用已经越来越深入和广泛,各种交互设备和技术不断涌现,给用户带来良好的参观体验。一方面,为了
我国是水资源缺乏的国家,人均占有量低于世界平均水平;改革开放以来,随着工农业生产的迅猛发展,大量工业废水、生活污水不断地向江河湖海排放。目前我国水资源60%已经受到污染,1.2