论文部分内容阅读
数据挖掘即为从大量数据中提取或“挖掘”知识。更具体地说,就是通过对数据进行深入分析,得到隐藏在数据背后的本质特性和普遍规律。聚类分析作为数据挖掘中的一种重要方法,在各领域中有着广泛的应用。按照某种相似性度量准则,将物理或抽象对象的集合分成相似的对象类的过程称为聚类。通过聚类可以发现数据全局分布模式与对象属性之间有趣的相关性。
近年来,随着计算机与通信技术的发展,在各行业当中产生了大量的数据流。这种数据具有以下特性:数据流速快,数量无限,动态变化,无法预测。由于以上种种特性的限制,在对数据流进行聚类分析时产生了众多的难题。已有许多学者对数据流聚类分析方法进行了大量的研究,但仍存在许多尚待改善的地方。
基于密度与网格的聚类方法在各种聚类方法中有着计算速度快,可以发现任意形状的类等特殊优势,适用于数据流的聚类分析。对于基于网格与密度的算法而言,网格的密度阈值是一个至关重要的参数,在很大程度上影响了算法的聚类质量。而缺乏领域知识与数据先验知识的用户很难对此参数进行确定。本文采用平均密度的方法,通过对数据初始分布的网格密度进行统计,确定网格的密度阈值,并在数据流的处理过程当中进行动态的调整,以应对数据流动态变化的特性。聚类边界难以精确是基于网格的聚类方法中另外一个普遍存在的问题,其原因在于在基于网格的方法中通过舍弃数据的原有信息而只对网格进行操作。将数据信息进行适量保存,对类边界的网格进行不均匀划分,可以提高类边界的精确度。大部分基于网格的聚类算法在聚类的形成过程中采用随机的生成顺序,这会产生大量没有意义的小聚类,本文在聚类的生成过程中选取密度最高的网格单元作为起始点进行搜索,这有助于发现簇的原有结构。
在上述研究的基础上,本文提出了一种基于D-Stream算法的改进数据流聚类算法。通过对人工数据与真实数据的实验分析与实验结果对比,表明算法能够获得良好的聚类质量。