基于密度单元覆盖的聚类数据流算法研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:yayayda
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机应用的普及,信息系统产生的数据量日益增大,如何有效的利用巨量的原始数据分析现状和预测未来,已经成为人类面临的一大挑战。近年来,越来越多的应用促使了数据流的产生,它是连续的、有序的、快速变化的、海量的数据,如网络连接数据、传感器数据和Web点击流数据,分析和挖掘这种类型的数据已经成为一个热点。聚类是挖掘数据流的一种重要工具。聚类就是把没有类别标记的样本按照某种准则划分为若干类,使类内样本的相似性尽可能大,而类间样本的相似性尽可能小,是一种无监督的学习方法。流聚类分析较传统的聚类分析具有更大的挑战性,这是由数据流的特性决定的。数据流分析的基本要求有:有限的使用内存及存储空间;对数据的访问最多一次;能够有较短的响应时间。除了内存限制和单遍扫描限制,数据流环境对聚类还有如下要求:不预先设定聚类个数,能处理具有任意形状的聚簇并且能够处理孤立点。目前已经提出了许多数据流聚类算法,但是都尚未解决以上数据流环境下的要求。传统的基于密度的聚类算法,如DBSCAN,可以发现具有任意形状的聚类,但这些算法的高复杂度以及多次扫描数据集的需求不适合对流数据进行聚类。在数据流滑动窗口模型下,本文提出了基于密度单元覆盖的数据流聚类算法DucStream。该算法能发现具有任意形状的数据流聚类,解决了由于数据流滑动窗口模型下不能精确记录每个数据,历史数据对聚类结果的影响问题。DucStream使用核心密度单元和候选密度单元刻画数据分布形式,作为在线数据摘要信息;根据每个单元中的最近数据到达时间修剪单元,保证了在线数据摘要信息是对当前窗口中数据流数据的覆盖;最后根据查询要求得到结果。在实际和人工数据集上的实验表明,DucStream算法具有良好的性能。
其他文献
多播是一种群组通信的手段,要求将信息从一个数据源同时传送到多个目的地。构造多播树是解决多播路由问题的常用方法。有3种不同类型的多播树:基于数据源的树、Steiner树和基于
Web作为一种信息发布的媒体,现在已经渗透入每个人的生活中。Web页面复杂且具有动态性导致人们难以方便快捷地在Web上找出所需的数据和信息。 Web用户行为模式挖掘注重于分
异构环境下资源的不均衡性使得移动嵌入式计算平台在与桌面系统进行通信时,面临计算速度慢、存储空间有限、屏幕和网络带宽受限等问题,这些问题给协同工作带来了新的挑战。异构
流媒体是下一代互联网(NGI,Next Generation Internet)的主要应用,它具有实时性强、数据量大的特点;但Internet“尽力而为”的特点难以满足流媒体业务发展的要求,为了提高传输效
信息时代对军事变革提出了新的要求和挑战。很多传统的军事办公方式和理念已经跟不上信息化建设的需求。虽然军内外科研人员已经在军网普及、大型应用软件开发方面做了大量的
无线传感器网络(Wireless Sensor Network,WSN)是由大量传感器节点通过无线自组织的方式构成的网络。它结合了计算,通信,传感器三项技术,在森林防火,环境检测,以及军工等各个领域都
3Tnet(3 Terabit Network)作为国家新建的“高性能宽带信息网”,是一个处于实验阶段的网络。其架构和支持的主要业务都和传统的网络有很大区别;其新的组网设备的稳定性,网络的性能,对业务的支持情况等都需要试验证明。本论文论述的平台是为完成3Tnet在浙江大学的大规模并发实验所建设的网络监测和服务支持系统。 平台设计成基于Web接口的网络管理的体系结构。本文首先介绍了该体系结构,
寻路算法在人工智能领域里处于基础性的地位,很多相关应用都需要优良的寻路算法的支持。在地图类游戏中,无论是玩家控制角色还是电脑控制角色都需要从地图上一个位置转移到另一
梭子蟹是我国重要水产养殖品种之一。传统的梭子蟹养殖以池塘散养为主,养成成活率低,单位面积养殖效益不高。而随着中国工业化和城市化进程的发展,水产养殖面积正在逐年萎缩,迫使
随着VPN技术的广泛应用,VPN系统在保障信息安全方面发挥了重要作用。但是VPN也暴露了一系列不足,网络传输性能就是其中重要问题之一。VPN的网络传输性能很大程度上受限于网络链