基于云计算平台Hadoop的HKM聚类算法设计研究

来源 :应用科学学报 | 被引量 : 0次 | 上传用户:wuww
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为有效解决传统K-means 聚类算法在处理大规模数据集时面临的扩展性问题,提出了一种Hadoop K-means 聚类算法. 该算法首先根据样本密度剔除数据集中孤立点或者噪声点的影响,再利用最大化最小距离思想选取K 个初始中心,使初始聚簇中心点最优化,最后用Hadoop 云计算平台的MapReduce 编程模型实现算法的并行化. 实验结果表明,该算法不仅在聚类结果上具有较高的准确率和稳定性,而且能够很好地解决传统聚类算法在处理大规模数据时所面临的扩展性问题.
其他文献
为使绿化工程中栽植的植物取得较高的成活率及达到经济阈值,必须采取相应的技术措施。在反季节绿化工程的施工中,采用整地造形、挖穴施肥、客土隔盐、起苗运输、修枝及喷施蒸腾