论文部分内容阅读
实时数据流挖掘是数据挖掘领域中极其重要的研究方向。现代社会中随着计算机技术的飞速发展以及计算机应用的普及,实时数据流应运而生,它们具有时序性、快速变化,概念漂移、数据量巨大、潜在无限等特点,实时数据流挖掘就是从这些海量数据中发现未知的、感兴趣的知识。作为实时数据流挖掘技术的重要研究方向的聚类分析及其边界界定技术,越来越受到人们的关注,它们已经成为实时数据流挖掘技术领域一个非常活跃的研究课题。本研究采用衰减窗口技术和基于网格的方法实现实时数据流的聚类及其边界检测算法GDBOUND,该算法通过计算每个网格的密度以及网格之间的相似程度,决定其是否归属于某个聚类模式,并对聚类后的结果扫描,从中发现其边界,避免对整个数据空间重新进行处理,以提高系统的性能。该算法能实时响应用户在任意时刻提出的聚类请求,并通过比较在不同时刻的聚类及其边界检测结果,来跟踪实时数据流的动态演化分析。本算法在VC6.0平台上实现编码,并通过多个数据集来验证本算法的可行性和准确性。实验结果表明,本研究提出的实时数据流的聚类及其边界检查算法GDBOUND,能够在含噪声点的数据集上发现任意形状、任意大小,不同密度的聚类及其边界,且聚类和边界检测效果好、内存消耗低、具有较好的系统性能。