论文部分内容阅读
随着世界上各行各业的快速发展,人们面临着越来越多的数据,大数据的时代已经到来,人们开始探索研究大数据为生活以及社会活动带来的影响。在研究中,对大数据的处理方法成为备受关注的热点之一。在对大量数据的处理中,聚类分析是一个重要的手段。在医疗诊断、图像处理、信息检索、统计学、生物学等领域的应用都非常广泛。由于聚类算法在应用中呈现的算法简单、容易实现且应用效果较好,从而引起了专家学者的广泛关注。随着聚类算法的应用领域的不断拓宽,使得人们对聚类算法的研究成为数据挖掘领域的一个热点问题,也使其成为是利用计算机实现低级视觉到高级视觉的核心环节。本文在学习基于大数据背景下的聚类算法的原理与应用的基础上,借鉴前人的研究经验,对算法的产生、原理及实现进行了研究,同时对聚类算法进行了实验对比,通过分析聚类的效果验证了算法的可行性和具体应用条件。本论文主要描述了K-means算法、层次聚类算法的原理和实现方法及其优缺点,并针对算法存在的缺点进行改进,提出改进方案;对K-means算法的初始聚类中心点选取对聚类效果的影响进行分析;对于层次聚类算法在聚类中存在合并点选择的难题进行实验分析;对K-means算法和层次聚类算法的聚类效果进行了实验对比。以逐步改进算法聚类效果为目的,为实际应用提供可靠依据,我们使用Java软件对分割算法进行了仿真,取得了一定的研究经验。最后,对聚类算法的改进过程进行记录,测试改进的算法,使它给出在某种环境和数据范围下会产生更好的聚类结果。为聚类算法在数据处理中的应用提供了参考依据,为解决其它类似复杂模式的识别问题的研究提供重要启示。