论文部分内容阅读
本文主要介绍了数据挖掘的聚类方法和分类方法基本理论,并比较了两者的区别。随后基于聚类和分类方法,使用系统聚类法中的最短距离法、最长距离法、Ward法和类平均法对实例进行聚类分析,并比较不同方法得到的聚类结果,最终选取合适的聚类结果;然后使用决策树分类方法中的递归分割树和C5.0算法对实例进行分类分析,并结合实际情况得到合理的分类决策树。首先以2015年我国30个主要城市(除拉萨市)的空气质量数据为研究对象,利用7个污染物相关指标,即二氧化硫、二氧化氮、可吸入颗粒物和细颗粒物的年平均浓度;烟尘排放量;一氧化碳日均值第95百分位浓度和臭氧日最大8小时第90百分位浓度这三类指标,通过数据挖掘方法和统计软件R语言,建立聚类模型,将30个城市聚为两类,空气质量较好的城市包括海口、昆明、南昌、南宁、贵阳、福州和兰州,其他城市为空气质量较差的城市。然后根据聚类结果,选取与空气质量相关的8个城市发展指标(机动车量、单位面积机动车量、万人机动车保有量、第二产业增加值、规模以上工业增加值、居民人均消费支出、人均GDP、绿化率)利用数据挖掘方法和统计软件R语言做决策树分类分析,提取了城市发展中对于城市空气质量较为显著的指标,得出了决策树的分类模型的具体规则。具体而言,通过决策树可以得到城市发展中影响空气质量的主要因素为规模以上工业排放污染物、机动车排放污染物和城市的绿化率,而人为因素对于城市空气的影响并不大。进一步的还可以得到城市的面积也成为空气污染控制的一大难题。最后根据本文的实证分析结果提出相应的建议,即将面积特大城市集中起来联合治理,多区域作战;通过改善汽车能源布局和加强公共交通系统的发展力度来减少车辆对于空气质量的消极影响;通过着重高新技术产业,稳定制造业类普通工业,减少重工业比例来改善工业结构;结合每个城市地区的特色制定不同的绿色城市政策导向,完善和监管评估系统。