【摘 要】
:
数据流的出现引发了人们对数据流处理技术的广泛研究。数据流频繁模式挖掘技术就是其中的一种,它在商务决策、知识库的应用中起着重要的作用。但是由于数据流本身动态多变、
论文部分内容阅读
数据流的出现引发了人们对数据流处理技术的广泛研究。数据流频繁模式挖掘技术就是其中的一种,它在商务决策、知识库的应用中起着重要的作用。但是由于数据流本身动态多变、无限性的特点,全部频繁模式挖掘存在着数据和项集冗余的问题,挖掘算法的时间和空间复杂度一般较大。Pasquier提出了闭合频繁模式的概念可以惟一确定所有的频繁模式并且数量要小得多,因此闭合频繁模式挖掘的研究具有更重要的意义。本文从研究对象数据流入手,首先介绍了有关数据流的相关知识包括数据流结构、模型和数据流挖掘技术;其次对以数据流为基础的频繁模式和闭合模式挖掘算法进行研究分析,针对Moment算法闭合模式的搜索空间较大,更新数据容易颠簸的不足等缺点,提出了基于Moment的改进闭合模式挖掘算法,该算法是基于二进制表示法和事务滑动窗口的改进算法。算法给出一种自定义的BitVec-gen结构,引入初始生成子概念直接挖掘闭合模式而无需存储其它的频繁模式,同时利用二进制表示的项目之间的位与操作简化支持数的计算,通过二进制移位操作实现项目在滑动窗口中的更新。该算法利用二进制表示法对数据流中的事务和项目进行水平和垂直两个方向上的压缩以节省内存空间,引入传统的闭合模式挖掘算法直接对闭合模式挖掘减少算法的搜索空间,提高算法的挖掘效率。文章最后通过实例分析以及合成数据进行实验,由对比结果可知该算法在保证挖掘结果的同时,在时间和空间上可以有更高的效率。
其他文献
本文以业界当前流行的SOA企业架构思想为基础,对异构分布式应用系统之间的通信进行了广泛的研究。在对XML、SOAP、WSDL、WebService等技术分析和研究的基础上,构建了一个轻量
结对编程(Pair Programming)是极限编程(Extreme Programming,简称XP)的十二个实践之一。结对编程是一个非常直观的概念,简单的说是指两位程序员肩并肩地坐在同一台电脑前合
分子动力学(MD)模拟是一种使用牛顿经典力学模拟微观粒子运动来获得原子体系的宏观性质的模拟方法。GROMACS是一款由格罗宁根大学研发的用来做分子动力学模拟的主流软件,目前
随着网络技术的发展,以软件定义网络(Software Defined Network,SDN)[1]和网络功能虚拟化(Network Function Virtualization,NFV)[2]为代表的新的设计理念和新的技术手段诞生
卫星-地面混合网络具有很大的网络覆盖范围和很强的应急通信能力,但是组网复杂,应用场景多变,导致往返时延和丢包率范围很大,可靠高效的传输数据面临巨大挑战。本文研究混合
数字地球技术的发展,使得电子地图逐渐成为各项研究的基础。但是随着我国改革开放的不断深入,经济的迅速发展,城市布局发生了重大变化,新建、改建、迁建的工程项目不断增加,电子地
Web日志挖掘是从服务器端纪录的用户访问日志或从用户的浏览信息中抽取感兴趣的模式。利用Web日志挖掘,我们可以知道用户对网站的浏览模式,通过分析这些数据可以帮助理解用户
信息化是提高制造业竞争力、应对挑战的重要手段。数字化电子手册就是在这样的形势下应运而生的。数字化电子手册不是纸质手册内容的简单再现,它是利用了计算机能够海量存储、
渲染是动画制作的重要步骤,目前国内该行业基本上是单机孤岛式的制作方式,由于没有基于网络环境的分布式资源管理、渲染节点的故障检测、排除和渲染文件分散存储的软件系统,
嵌入式计算、网络、传感器和无线通信四大技术孕育了无线传感器网络。无线传感器网络通常包含大量的自组织成多跳无线网络的分布式传感节点,是一种全新的信息获取和处理、传