论文部分内容阅读
数据挖掘是从庞大的数据集或数据库中提炼有用信息的科学。它汇集了统计学、机器学习、数据库、模式识别、人工智能等学科的内容,是一门新兴的交叉学科。聚类分析是数据挖掘中的一个重要研究领域,是一种数据划分或分组处理的重要手段和方法。聚类的应用是非常广泛的,无论是在商务上、还是在市场分析生物学、WEB文档分类等领域中都得到了充分的应用。目前,聚类算法大体上分为划分的方法、层次的方法、基于密度的方法、基于网格的方法和基于模型的方法。这些算法存在如下的问题:符号属性问题、算法的效率问题、初值的选择问题、对输入顺序的敏感性问题、最优解问题、算法对输入参数的依赖性问题。本文研究基于划分的聚类方法中有效选取初值的问题。主要工作如下:首先,概括介绍了聚类分析的基本原理,并对聚类分析中的基本数据类型进行了描述。其次,在对各种聚类算法进行简单描述后,提出了本文所涉及到的基于划分的聚类算法,并提出了本文中的算法对聚类分析中普遍存在的初始中心选择问题的处理方式。最后,给出了改进的基于划分的聚类方法,以及其中涉及到的最小生成树算法的基本思想。并通过实验有效验证了算法的可行性。