论文部分内容阅读
数据挖掘就是从大量的、不完全的、有噪音的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。聚类分析是数据挖掘领域中重要的研究课题,用于发现大规模数据集中未知的对象类。因此,聚类算法的研究具有重要的意义和广阔的前景。本文针对传统K-means聚类算法和基于密度聚类算法进行了重点研究并对所存在的问题提出了改进算法。K-means聚类算法在数据挖掘领域具有非常重要的应用价值。但随着应用领域的拓展和新的问题需求,K-means本身存在的局限越来越突出。首先,随机选取的初始值可能会导致不同的聚类结果,甚至会造成无解。其次,K-means算法采用了典型的爬山搜索方法,易于陷入局部最优。本文针对K-means聚类算法存在的缺陷提出了KSNN聚类算法。KSNN在数据集中搜索中心点,依据中心点查找数据集个数,为K-means聚类提供参数。有效克服了K-means需要人工设定聚类个数的问题,同时具有较好的全局收敛性。其次,为了解决数据集密度分布不均匀等实际应用问题,本文改进了基于密度的聚类算法,提出了CABONW聚类算法。CABONW首先利用最近邻居节点的方法构建出数据集中节点间的自然链接关系,然后建立节点间优先级,并将其用于对数据节点的有效关系进行排序,生成顺序表。最后,通过对顺序表的深度优先搜索生成最终的簇。通过与DBSCAN、OPTICS等基于密度聚类算法的对比实验证明,CABONW很好地解决了密度分布不均匀的数据集的处理,执行效率优于DBSCAN和OPTICS等基于密度的聚类算法。最后,本文设计了聚类分析系统原型,并将KSNN和CABONW等聚类算法加入到系统中。此原型系统可用于教学对比和实际数据集的分析,具有实际应用价值。通过理论分析和实验结果证明,KSNN和CABONW能够很好的解决K-means聚类算法和基于密度聚类算法所存在的缺陷,并且在聚类分析系统原型中得到了验证。