论文部分内容阅读
目前,以PM2.5为主要污染物的灰霾污染已经成为我国严重的环境问题之一,但由于监测站点分布不均匀和历史数据的缺失,可获取的PM2.5监测数据具有时空上的不连续性,导致对PM2.5浓度的分布、变化、预测等方面的研究缺乏可靠的数据支持,因此以往研究通过遥感、统计、机器学习等多种方法模拟PM2.5的浓度,获取时空连续的高质量数据。目前研究中仍然存在一些问题,例如模拟结果的准确性有待提高,遥感反演的模拟方法依赖于遥感影像的质量,估算的时间和空间精度较低,回溯PM2.5历史数据困难,模型仅适用于特定地区或时间,忽略了PM2.5浓度分布在时间和空间上的连续性、PM2.5浓度变化在不同时间尺度上的周期性特征,以及景观格局对PM2.5浓度分布的影响。而集成学习是一种建立在传统机器学习方法基础上的组合优化算法,已经在语音识别、图像识别等多个领域得到了优于单一学习器的良好效果。为了解决在PM2.5浓度模拟研究中存在的问题,提高估算模型的准确度和普适性,本文使用集成学习方法耦合了多种机器学模型,用于模拟PM2.5浓度。以单一学习器的准确性为标准选择了5种常用的机器学习算法,使用偏差-方差-协方差分解方法评估所有个体学习器组合的多样性和准确性,在此基础上采用Stacking集成方法,以线性回归为次级学习器,建立了8种集成模型组合。在模型训练阶段,本文优化了传统的PM2.5机器学习特征库,增加了PM2.5浓度的时间和空间特征用于模拟当前位置周围的PM2.5浓度分布情况,并考虑到PM2.5浓度在不同时间尺度上变化的周期性,同时关注景观格局与PM2.5浓度的相关关系,通过斑块密度等景观指数表征这种影响。基于这种优化特征库进行模型训练,得到一个适用于全国地区全年时间范围模拟每小时PM2.5浓度的集成模型。最后,本文使用建立的Stacking集成模型选择北京市2017年3月23日进行实验,得到24小时的PM2.5浓度模拟结果。通过实验结果发现以K近邻法、BP神经网络、极端树和XGBoost为初级学习器,以线性回归为次级集成方法的Stacking集成模型(KNN-BP-ET-XGB—LR)效果最优,对训练集和测试集的拟合优度分别达到0.9890和0.8812,高于所有集成的传统单一机器学习方法和统计回归方法,模型效果及适用的时空范围也优于其他研究。集成模型的效果与个体学习器的个数没有直接地关系,不同个体学习器的集成结果优于相同个体学习器。通过偏差-方差-协方差分解方法计算模型组合的准确性及多样性表明,KNN模型与其他模型的差异度最大,适合与其他模型耦合。该指标可以在一定程度上反映最终集成模型的效果,但不能作为评价模型的指标。本文新增的时空、气象和周期特征使模型更准确地获得影响PM2.5变化的因素,当删除这三种特征时,集成模型的2由0.8812降低至0.7344。