论文部分内容阅读
针对传统的k-means算法对庞大的Web日志数据进行挖掘处理时,有对初始聚类中心的选择敏感等缺点,容易对聚类准确率产生一定影响等问题,在Hadoop云平台基础上结合粒子群优化(PSO)提出改进的k-means算法。该算法使得k-means算法不受初始聚类中心的影响,并且在Hadoop平台上实现了算法的Map Reduce编程。数学分析和实验结果证明:该改进算法与传统的k-means算法相比具有更高的聚类准确率,与串行单机算法相比运行效率也有很大的提升。