论文部分内容阅读
信息总量巨大,分散存储在不同地点,涉及隐私保护的信息增多等是当今数据信息所呈现出来的新特点。由于网络带宽,隐私保护和单机处理能力有限等因素的限制,难以将这些信息聚集起来进行统一的聚类分析。因而,分布式聚类技术成为研究热点。但是现有的分布式聚类算法或框架存在着必须修改单机算法,聚类结果融合方法简单而易受数据分布局部性影响等问题。针对存在的问题,本文提出一个基于模型融合的迭代式的分布式聚类框架。本文首先阐述了基于模型融合的迭代分布式聚类算法框架的设计原理。框架主要由局部聚类阶段和全局优化阶段两个部分组成,其优点是不必修改原有的单机算法,迭代式的过程避免了数据分布局部性带来的影响,同时分布式环境中的网络带宽限制和数据隐私保护的问题也得到了解决。其次,根据提出的算法框架,本文实现了一个分布式K-means算法,即M-K-means。同时将M-K-means与单一节点K-means算法和采用weighted mean方式进行结果融合的分布式聚类算法进行了实验结果对比与分析。最后,本文将M-K-means在扩展到云计算环境Hadoop中。针对Hadoop不适合处理迭代式算法的问题,本文针对M-K-means的特点对Hadoop工作过程进行了优化,并将优化后的M-K-means与Mahout K-means进行了结果对比与分析。根据实验结果与分析,本文提出的算法框架在提高聚类算法效率的同时也在一定程度上增加了分布式聚类结果的准确性,扩展到云计算环境中也有很好的表现,具有良好的实际效果。