面向PM2.5浓度模拟的多模型耦合方法

来源 :武汉大学 | 被引量 : 0次 | 上传用户:liongliong423
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,以PM2.5为主要污染物的灰霾污染已经成为我国严重的环境问题之一,但由于监测站点分布不均匀和历史数据的缺失,可获取的PM2.5监测数据具有时空上的不连续性,导致对PM2.5浓度的分布、变化、预测等方面的研究缺乏可靠的数据支持,因此以往研究通过遥感、统计、机器学习等多种方法模拟PM2.5的浓度,获取时空连续的高质量数据。目前研究中仍然存在一些问题,例如模拟结果的准确性有待提高,遥感反演的模拟方法依赖于遥感影像的质量,估算的时间和空间精度较低,回溯PM2.5历史数据困难,模型仅适用于特定地区或时间,忽略了PM2.5浓度分布在时间和空间上的连续性、PM2.5浓度变化在不同时间尺度上的周期性特征,以及景观格局对PM2.5浓度分布的影响。而集成学习是一种建立在传统机器学习方法基础上的组合优化算法,已经在语音识别、图像识别等多个领域得到了优于单一学习器的良好效果。为了解决在PM2.5浓度模拟研究中存在的问题,提高估算模型的准确度和普适性,本文使用集成学习方法耦合了多种机器学模型,用于模拟PM2.5浓度。以单一学习器的准确性为标准选择了5种常用的机器学习算法,使用偏差-方差-协方差分解方法评估所有个体学习器组合的多样性和准确性,在此基础上采用Stacking集成方法,以线性回归为次级学习器,建立了8种集成模型组合。在模型训练阶段,本文优化了传统的PM2.5机器学习特征库,增加了PM2.5浓度的时间和空间特征用于模拟当前位置周围的PM2.5浓度分布情况,并考虑到PM2.5浓度在不同时间尺度上变化的周期性,同时关注景观格局与PM2.5浓度的相关关系,通过斑块密度等景观指数表征这种影响。基于这种优化特征库进行模型训练,得到一个适用于全国地区全年时间范围模拟每小时PM2.5浓度的集成模型。最后,本文使用建立的Stacking集成模型选择北京市2017年3月23日进行实验,得到24小时的PM2.5浓度模拟结果。通过实验结果发现以K近邻法、BP神经网络、极端树和XGBoost为初级学习器,以线性回归为次级集成方法的Stacking集成模型(KNN-BP-ET-XGB—LR)效果最优,对训练集和测试集的拟合优度分别达到0.9890和0.8812,高于所有集成的传统单一机器学习方法和统计回归方法,模型效果及适用的时空范围也优于其他研究。集成模型的效果与个体学习器的个数没有直接地关系,不同个体学习器的集成结果优于相同个体学习器。通过偏差-方差-协方差分解方法计算模型组合的准确性及多样性表明,KNN模型与其他模型的差异度最大,适合与其他模型耦合。该指标可以在一定程度上反映最终集成模型的效果,但不能作为评价模型的指标。本文新增的时空、气象和周期特征使模型更准确地获得影响PM2.5变化的因素,当删除这三种特征时,集成模型的2由0.8812降低至0.7344。
其他文献
《普通高中语文课程标准(2017版)》中最为突出的两个关键词,一个是“语文核心素养”,一个是“学习任务群”,前者是目的,后者为途径。学习任务群中有两个涉及到传统文化经典,且各占有两学分,可见其重要性。从“中华传统文化经典研习”这一任务群来看,其目的是为引导学生通过阅读中华传统文化经典作品,积累文言阅读经验,培养民族审美趣味,增进对中华优秀传统文化的理解,提升对中华民族文化的认同感、自豪感,增强文化
<正> 为适应大批量生产、保证质量,我们在加工图1所示工件时,制造了钻斜孔专用夹具。经两年实践验证,保证了工件加工要求。其结构如图2所示。工件以外圆和下端面在定位套
[目 的]肉芽肿性小叶性乳腺炎(Granulomatous lobular mastitis,GLM)是一种慢性乳腺炎症性疾病,主要发生在乳腺小叶中,研究发现其主要的病理特点是非干酪样坏死性肉芽肿的形
在多智能体(agent)环境中如何应用强化学习的方法完成特定任务一直以来都是强化学习领域的一个难点,多个智能体之间有效的沟通和协调是迈向通用人工智能的重要手段。目前很多传统的强化学习算法能够实现在简单环境下的单智能体学习,然而在多智能体环境中,由于环境的复杂性和动态性,学习过程遇到了很大的困难,会出现维数爆炸、目标奖励确定困难、算法不稳定难以收敛等问题。本文介绍了一种基于改进DDPG的多智能体强化
近年来,含氟有机分子因含氟取代基特殊的物理化学活性而被广泛的应用于各个领域,如有机化学的理论研究、多功能的含氟材料研发、生物制药的中间体等。但是天然的有机含氟分子