数据挖掘中的聚类算法在工业园区经济发展中的比较应用——基于统计视角

来源 :云南财经大学 | 被引量 : 0次 | 上传用户:zexuan123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机科学技术的发展,探求海量数据内在信息的需求与日俱增,对传统的数据分析提出了巨大的挑战,使数据挖掘迅速发展成为一个独立的领域。其中,建立有意义的对象分组是数据挖掘的基础方式之一,聚类分析就是一种典型的分组方法,它是将物理或抽象对象的集合分组成为由类似对象组成的多个类(duster)的过程(clustering)。  本文将对多指标聚类方法作比较详尽的探讨,全文分为五个部分:  第一部分是绪论,主要包括本文选题的意义,研究动态以及本文以层次分析法、主成分分析法为降维原则的聚类分析研究思路。  第二部分是聚类理论概述,主要对数据挖掘和聚类算法作简要综述,并引入极大极小距离概念,比较聚类分析的各种距离算法。  第三部分是研究思路和方法的说明,主要从统计学的角度,以工业园区经济发展水平的划分为目的,结合实际说明研究方法,包括指标的设计和提取(降维)、聚类的样本处理等,其中指标提取所用的层次分析法和主成分分析法是讨论重点,也是实证分析的中心环节。  第四部分是园区经济发展水平的聚类分析实证研究。应用层次分析法和主成分分析法对云南省32个重点工业园区的指标进行降维,在聚类时对6种距离算法(最短距离法、最长距离法、重心连接法、类平均法、离差平方和法、极大极小距离法)作对比分析,选出最能反映园区实际的离差平方和法计算距离,得出相应的聚类结果(总共分为3类),并结合聚类结构图分析存在差异的原因及提出相应的对策。  第五部分是总结以及对下一步研究工作设想。  综合来看,本文在聚类算法的选取上考虑比较全面,符合研究对象的实际情况,具有较大的研究意义。
其他文献
近十年来,我国机构投资者在国家一系列政策的大力推动下得到了快速发展,机构投资者开始尝试在公司治理中扮演积极监督者的角色。然而在众多内外部因素的阻碍下,机构投资者也可能
政府并不是市场的外部参与因素,而是市场中重要的一部分。在市场经济中,政府的宏观经济政策的使用才会是整个市场更加完善。宏观经济政策主要包括货币政策和财政政策。相比于发