论文部分内容阅读
为有效解决传统K-means 聚类算法在处理大规模数据集时面临的扩展性问题,提出了一种Hadoop K-means 聚类算法. 该算法首先根据样本密度剔除数据集中孤立点或者噪声点的影响,再利用最大化最小距离思想选取K 个初始中心,使初始聚簇中心点最优化,最后用Hadoop 云计算平台的MapReduce 编程模型实现算法的并行化. 实验结果表明,该算法不仅在聚类结果上具有较高的准确率和稳定性,而且能够很好地解决传统聚类算法在处理大规模数据时所面临的扩展性问题.