论文部分内容阅读
随着计算机科学技术的发展,探求海量数据内在信息的需求与日俱增,对传统的数据分析提出了巨大的挑战,使数据挖掘迅速发展成为一个独立的领域。其中,建立有意义的对象分组是数据挖掘的基础方式之一,聚类分析就是一种典型的分组方法,它是将物理或抽象对象的集合分组成为由类似对象组成的多个类(duster)的过程(clustering)。 本文将对多指标聚类方法作比较详尽的探讨,全文分为五个部分: 第一部分是绪论,主要包括本文选题的意义,研究动态以及本文以层次分析法、主成分分析法为降维原则的聚类分析研究思路。 第二部分是聚类理论概述,主要对数据挖掘和聚类算法作简要综述,并引入极大极小距离概念,比较聚类分析的各种距离算法。 第三部分是研究思路和方法的说明,主要从统计学的角度,以工业园区经济发展水平的划分为目的,结合实际说明研究方法,包括指标的设计和提取(降维)、聚类的样本处理等,其中指标提取所用的层次分析法和主成分分析法是讨论重点,也是实证分析的中心环节。 第四部分是园区经济发展水平的聚类分析实证研究。应用层次分析法和主成分分析法对云南省32个重点工业园区的指标进行降维,在聚类时对6种距离算法(最短距离法、最长距离法、重心连接法、类平均法、离差平方和法、极大极小距离法)作对比分析,选出最能反映园区实际的离差平方和法计算距离,得出相应的聚类结果(总共分为3类),并结合聚类结构图分析存在差异的原因及提出相应的对策。 第五部分是总结以及对下一步研究工作设想。 综合来看,本文在聚类算法的选取上考虑比较全面,符合研究对象的实际情况,具有较大的研究意义。