论文部分内容阅读
自2013的"雾霾中国"起,"雾霾"成为以北京为首的大中型城市发展中的"拦路虎",危害人身体健康,影响生态环境的同时极大降低了居民生活幸福指数;而PM2.5指数是目前衡量雾霾污染最普及最重要的指标,对其进行有效的监控预测对实现雾霾污染治理具有重要的理论和现实意义。由此,本文以UCI网站所得的2010年-2014年的气象数据作为训练集,根据相关气象影响因子的数据建立基于特征工程的SVM多分类模型,取名为FEMC-SVM,预测PM2.5的等级(优,良,中,差),FEMC-SVM模型具体建立,优化过程及结果如下:首先对预处理后的数据进行相关性分析,选出与PM2.5相关性较强的5个气象因素并将其和PM2.5的数据为训练集建立基于决策树的多分类支持向量机模型,但经初步人工指定参数模型验证结果的最佳准确率仅为0.5。为充分挖掘数据信息,引入特征工程(Feature Engineering),对数据集进行标准化和PCA优化,获得彼此无相关关系的主成分数据,提高数据和特征所决定的机器学习"上限";并使用Grid Search暴风搜索遍历所有的参数组合,以模型准确率为标准进行参数优化,得到最好的参数组合为:[核函数:rbf,gamma=2.08,惩罚因子C=2],对应的FEMC-SVM模型最高准确率为62.8%--对所建立四分类问题,表明FEMC-SVM模型的拟合效果较好。同时,为了展现所建立FEMC-SVM模型的优越性,分别以原数据和引入特征工程对数据处理后的数据为训练集,将机器学习常见的分类器:KNN,随机森林,决策树等与所建立的FEMC-SVM模型进行对比分析,证明了所建立的FEMC-SVM模型的错误率更低,且对特征工程处理后的数据进行拟合所得的准确率明显优于对原数据的拟合。最后,就FEMC-SVM模型应用,从目标结果的可行性和实用性考虑,通过绘制各影响因子的6维联合分布图获得人们日常可以感知的不同的典型气象情况的参数定量范围,然后采用情景分析法根据不同情景下FEMC-SVM模型应用结果,对人们的日常出行提出合理化建议为:低温干燥且风速较高时空气质量较"优",适宜户外活动;高湿,温度稍高且风速适宜时空气质量为良,可进行正常的户外活动;高温高湿风速大时空气质量中等,不适宜敏感人群外出;而寒冷干燥无风时空气质量较差,建议所有人尽量避免外出。