论文部分内容阅读
近年来,随着国家经济的快速发展和网络技术的广泛应用,数据源开始不断地膨胀,人们获取的数据集规模逐渐增大,数据结构也变得日渐复杂,如何从大规模复杂结构的数据中获取有效信息成为当下的研究热点。聚类分析作为数据挖掘领域中一项重要的数据分析技术,在模式识别、信息处理、机器学习等领域都有着广泛的应用前景。由于初始条件和聚类准则的不唯一性,使得各种各样的聚类算法应运而生。但面对越来越多具有类间相似、类内相异、噪声、重叠等现象的大型数据集,现有聚类算法的局限性日益凸显。针对传统聚类算法处理噪声和重叠现象能力差的问题,本文从统计学的角度出发,提出了一种基于密度的统计合并聚类算法(DSM)。该算法创新性地将数据点的每一个特征看作一组独立随机变量,并根据独立有限差分不等式得出统计合并判定准则,同时,结合数据点的密度信息,把密度从大到小的排序作为凝聚过程中的合并顺序,实现了各类数据点的统计合并。人工数据集和真实数据集的实验结果表明:DSM算法不仅可以处理凸状数据集,对于非凸状、重叠、加入噪声的数据集也有良好的聚类效果,充分说明了该算法良好的适用性和有效性。针对处理大数据时传统聚类算法失效或大数据聚类算法效果不理想的问题,本文从数据抽样的角度出发,提出了一种大数据的密度统计合并算法(DSML)。该算法是DSM算法在应用范围上的推广。首先利用统计合并判定准则对Leaders算法做出改进,获得新的抽样算法—Statistical Leaders算法;然后将Statistical Leaders算法与DSM算法相结合,完成对整个数据集的聚类。理论分析和实验结果表明:DSML算法能获得更具代表性的样本集,具有近似线性的时间复杂度,可处理任意形状的数据集,且对噪声具有良好的鲁棒性,非常有利于处理大规模数据。