面向数据流的ToP-k频繁闭项集挖掘算法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:LYXTTKX
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现实生活中的信息,有很多都是以流数据的形式产生的,如传感器网络监控信息、网络安全监控、web用户点击流、气象监控及分析,有着广泛的应用背景。又因数据流具有连续性、未知性、潜在无限性,传统的数据挖掘算法不能直接应用在数据流之上。因此,如何有效地挖掘和管理数据流吸引了大批研究人员的目光,成为了一个新的研究热点,其中频繁项集挖掘是数据流处理技术中的一个重要组成部分。  本文首先对数据挖掘技术进行了简要介绍,并对经典算法进行了介绍及分析。为了避免用户在每次挖掘时都要设置一个恰当的最小支持度阈值,且更好地理解挖掘到的频繁项集,提出了挖掘数据流中Top-k频繁闭项集的挖掘算法。该算法采用分段挖掘的思想挖掘基本窗口中的频繁闭合模式,以实现挖掘滑动窗口中的k个最频繁的闭合项集。并且通过对挖掘项集长度的限制,更好的满足用户的需求,同时由于算法对不符合用户指定长度的项集不进行处理,势必会使精度有一定的损失,但也可以提高算法的挖掘速度。用户需要做的就是根据实际应用的需要,在速度和精度之间找到平衡。为了验证算法的有效性,对算法进行了仿真实验,结果表明算法拥有良好的时空效率,对项集长度的限制所带来的精度下降也可以由用户来控制,可以较好地完成相关的数据流挖掘任务。  为了能够同时处理多条数据流,提高算法的整体效率,在挖掘基本窗口频繁闭合模式算法的基础上,引入了诸如轮询,预处理以及对数据流的加入和退出等处理方案,形成了一个可以处理多数据流的策略。最后,按照MapReduce编程框架对算法进行了实现,构成了一个多数据流频繁项集挖掘原型系统。系统先将数据流封装成较小的静态分割,再逐块挖掘频繁项集并提供给用户查询,实现多数据流的挖掘处理。实验测试结果表明,系统能够同时对多条数据流进行有效地处理,且在时空效率、系统资源利用率以及可扩展性方面都有良好的表现,可以满足大规模多数据流频繁项集挖掘的应用需求。
其他文献
G(o)del语言是继Prolog之后出现的一种新型通用逻辑程序设计语言,它具有一个多态多类的类型系统、有灵活的计算规则和剪枝操作、支持模块化程序设计,因此相对与Prolog语言具
计算机技术中软硬件技术的快速发展促使用户对各类软件的功能和性能提出更高期望和要求,软件成本也随之不断升高。网络覆盖地域范围的扩大与网络接入设备的多样化使得软件相关
随着互联网技术的发展和云计算技术的出现,越来越多的公司企业开始面对海量数据的处理。传统的集中式处理方式和分布式处理方式很难满足海量数据的计算需求,而云计算技术的发展
编写结构化查询语言(Structured Query Language,以下简称SQL)的语句是测试数据库管理系统(Database Management System,以下简称DBMS)的一个重要部分。自动生成SQL语句可以
围绕可证明安全公钥密码方案的设计与分析这一主题,本报告主要包括以下几个方面的内容:   1.在一般签名方案基础上提出指定条件下k次签名的概念,给出了指定条件下k次签名方
随着时代的发展,信息量也在剧增。在金融服务、电子商务、股票交易、入侵检测、卫星、气象、电信通讯等具体运用中,出现大量的数据,这些数据有别于传统数据,海量而快速达到的数据
颅骨面貌复原是根据人类颅骨特征和颅面形态统计知识来推断出该颅骨的原始面貌。采用计算机技术进行颅骨面貌复原,不但可以减少主观因素带来的偏差、缩短复原时间,还可以使得所
组播是一种高效的通信机制,允许一个发送者同时发送数据至多个接收者或多个发送者发送数据至多个接收者的传输模式,在路由器上合并重复数据以便进行高效的传输,从而有效地节
网络编码技术和机会路由技术是2000年以来逐渐兴起的新技术。网络中间节点将数据包编码后再转发。目的节点收到编码包后按照一定的规则进行解码从而获得原始数据包。网络编码
无线网状网技术是一种新兴的网络技术。它来源于Ad-hoc网络,具有成本低、容易维护、自愈性、可靠的服务覆盖等特点。它和传统的无线网络的一个最大的不同是它的多跳性。现有的