基于数据流的聚类算法研究与实现

来源 :中南大学 | 被引量 : 0次 | 上传用户:digitalmachinec
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,由于计算机应用技术的高速发展,人们获取数据的能力得到极大的提高,数据流作为一类重要的数据来源,受到越来越多的关注,基于数据流模型的聚类算法已成为重要的前沿课题。与传统数据库不同,数据流具有如下特点:数据的总量具有无限性、数据到达的快速性以及数据到达的无序性。由于数据流具有上述特点,所以要想对数据流中的数据有很好的聚类结果,提出高质量的聚类算法是很有必要的。本文提出了一种基于Hash函数抽样的双层数据流聚类算法HSCS,算法分为快速计算层和精确计算层两个阶段,快速计算层在线收集和预处理数据流,是整个双层数据流聚类算法的基础。在快速计算层阶段,算法采用等时间跨度滑动窗口的思想,对数据流中的数据用Hash函数进行抽样,从抽样数据中提取数据流的摘要信息,再将摘要信息作为精确计算层的输入。精确计算层是双层数据流聚类框架的离线分析部分,可以有更多的自主性对数据进行更加精确的聚类分析。在精确计算层阶段,将快速计算层输出的摘要信息进行聚类处理,选择了基于密度的聚类算法DBSCAN对摘要数据进行聚类,得到更精确的聚类结果。从实验数据集的实验结果上来看,HSCS算法能够通过对数据流的抽样分析来反映数据流的总体分布,同时也可以降低算法的存储需求,具有良好的可行性和有效性。
其他文献
近年来,随着计算机与通讯技术的迅猛发展,笔记本电脑、手机、PDA等异构设备已融入到人们日常的生活中。这些异构设备具有截然不同的软硬件环境(平台不同,屏幕大小也不相同)。
随着无人战斗机在军事领域上的应用越来越广泛,世界各国都在下大力气研制无人机,无人战斗机的出现也将改变未来的空战态势,成为决定战场的重要力量。在这其中,无人机的智能化
随着多媒体技术和网络技术的飞速发展和广泛应用,对数字多媒体产品的存储、处理和传输变得越来越方便和快捷,但同时也带来了数字版权的问题。采用传统的加密技术,对其进行保
P2P系统(Peer-to-Peer)已经成为Intemet中最重要的应用系统之一。然而,P2P系统所具有的开放、匿名等特性使得节点可以肆意传播非法内容,滥用网络资源,导致不可靠的服务质量及存
随着3G应用的普及,在接入速率和适应环境上与3G技术互为补充的无线局域网(WLAN)迅猛发展,成为新一代高速无线接入网络,在3G的补充技术方面脱颖而出。同时由于多媒体技术的发
随着网络技术的飞速发展以及信息化进程的迅速推进,数字媒体已成为成为当今社会一种重要信息媒介。互联网的便捷性和数字媒体复制的低成本,在促进数字产品的在现实中应用迅速
作为一项关键的多媒体数据分析技术,说话人识别被广泛地应用于事务访问控制、身份验证、执法、语音数据管理,以及音频监控等领域。其中,i-vector作为一项有效的说话人识别技
Web Services的简单性、开放式标准、灵活高效性、可扩展性等优点使其得到了各企业、组织和机构的广泛关注和使用。而Java ME技术呈现的高灵活性和可靠性,在解决移动设备与企
随着计算机的广泛应用和发展,联机手写汉字识别以操作其简单方便得到了极大的关注。联机手写汉字识别的原理是通过手写板捕获书写的轨迹并进行汉字识别。但由于汉字字库庞大,
随着微电子技术、计算技术以及无线通信技术的进步,低功耗多功能的传感器得到了快速发展,随后,无线传感器网络被广泛地应用于军事、环境与火灾检测、交通管理等领域。数据的