论文部分内容阅读
随着存储技术和网络技术的疾速发展,数据量呈现爆炸式增长,数据结构也日益复杂。如何从海量数据中挖掘出有价值的信息成为当下研究的热点。聚类是数据挖掘领域重要的数据处理技术,已被广泛应用于机器学习、模式识别等领域。根据聚类的初始条件和应用准则的不唯一性,各式各类的聚类算法应运而生。但面对海量的数据,一些经典的聚类算法往往力不能及。如传统的谱聚类和近邻传播算法(AP算法),能处理任意形状的数据集并且聚类质量高,但由于这两种聚类算法的计算复杂度太高,都无法聚类大数据。近些年,研究者相继提出了一些大数据的聚类思想,其中基于抽样的大数据聚类算法应用较为广泛。但已有的抽样方法往往都无法较好的平衡样本集的质量和抽样方法的计算复杂度。针对已有抽样方法的不足,本文提出了一种基于相似性的大数据抽样方法,并完成对大数据的分组。该方法的大致过程是:首先从大数据集中随机选取一个小规模样本子集;然后,计算大数据集与样本集的数据对之间的相似性,并按照相似性最高选出核心点;最后,每个核心点代表一个分组,剩余点分配到与其相似性最高的核心点所在的分组,完成对大数据的分组。该抽样方法以较小的精度损失换来算法速度和样本集质量的大幅度提高。理论分析和实验结果表明:该抽样方法不仅计算复杂度低,便于操作,而且选出的核心集能较好的体现大数据集的整体信息,对噪声鲁棒,这充分说明了该抽样方法具有较好的适用性和有效性。针对经典聚类算法在大数据面前失效的问题,本文结合上述抽样思想,提出了一种基于相似性的大数据聚类框架,并将经典的谱聚类和AP算法纳入该框架,将这两种经典算法的优异性能成功推广至大数据。首先,利用上述抽样方法得到核心集并完成大数据的分组;然后,在核心集上应用谱聚类和AP算法得到聚类结果;最后,根据核心集与原始数据集的对应关系完成对整体的聚类。理论分析和实验结果表明:推广后的CBSC和CBAP不仅能处理大数据的聚类难题,而且继承了原聚类算法的优势,即可以聚类任意形状的数据集且对噪声鲁棒,并仅有近似线性的时间复杂度,非常适合处理大数据集。该框架以较小的精度损失换来算法效率的大幅提升,并将经典的谱聚类和AP算法推广至大数据。真实数据集和人工数据集的实验结果均说明了推广后的CBSC和CBAP算法的高效性。