论文部分内容阅读
背景:近50年来,全球大气污染情况愈发严重,其中细颗粒物(particulate matter,PM)浓度的升幅超过了 38%。而中国和印度等发展中国家逐渐成为了空气污染的主要来源地,引起了大众、政府和研究者更多的重视。因此,对这些地区的环境空气质量进行实时准确的监测变得迫在眉睫。然而,建立和维护地面监测点的高昂成本使得空气污染监测站点分布稀缺,也就是监测数据的可及性十分有限。于是,研究者们开始提出基于卫星数据气溶胶光学厚度(Aerosol Optical Depth,AOD)估计近地面PM浓度。这想法看上去很美好,也是全球研究的一个热点,但尚存在一系列问题等待解决:首先,AOD反演数据通常存在严重的非随机缺失问题,缺失率高达70%至90%,这严重影响了空气污染暴露水平估计的准确性和后续的健康效应评估;其次,当时空范围较大时,传统的参数模型由于难以捕捉复杂时空异质性,模型估计效果往往不佳,亟需在模型上的改进或进行方法创新;最后,传统的交叉验证往往在不同的栅格上存在较大差异,这可能由站点分布不均匀和过于稀疏造成的,需要进一步的探索。目的:本研究的主要目的是针对AOD产品估计近地面细颗粒物浓度这一过程中所产生的一系列问题,提供一套可行且有效的解决方法,包括AOD反演缺失值的填补、提出基于AOD数据有效估计PM2.5浓度的新模型以及探索模型拟合效果与邻近站点数量及分布特征之间的关系。方法:为了解决美国国家航空航天局(NASA)提供的AOD产品存在过高的缺失率问题,我们提出了两步插值法,即用混合效应模型进行初步插值,再用逆距离加权进行二次插值。基于中国各地区在地理条件和气候条件之间的差异,研究区域会被分解成中国传统七大地理分区。对于每一个分区,按3KM栅格的分辨率,分别基于AOD和逐日气象数据,采用XGBoost(eXtreme Gradient Boosting)机器学习技术结合非线性暴露滞后模型(Non-linear Exposure Lag Model,NELRM),估计出中国大陆2014-2015年近地面逐日PM2.5浓度。在模型效果评估的过程中,采取两阶段meta分析(第一阶段:不同分区的探索;第二阶段:合并各分区的效应)来探索邻近站点数量及分布特征对模型估计准确性的影响。结果:本研究发现我国AOD缺失率高达87.90%,经过混合效应两阶段插值方法之后,使得AOD数据的缺失率下降到13.83%,同时保证了插值的准确性(Cross-Validation R2为0.76)。相比非线性暴露滞后模型(NELRM),联合模型在全国平均提升了 56%(交叉验证的R2从0.55提升到0.86),而交叉验证的RMSE也缩减了接近一半(从26.80μg/m3缩减至14.98μg/m3)。在两阶段meta分析中发现,栅格的空间外推能力的确会随着其邻近站点分布的稀疏程度增加而下降。结论:本研究提出了两步插值法使AOD产品严重而非随机缺失问题基本得到解决,且通过联合的机器学习方法估计出高覆盖率和高准确度的日均PM2.5浓度,可供进一步更准确地评估人群空气污染的平均暴露水平和个体暴露水平。此外,我们提出了两阶段meta分析,进一步探讨了邻近站点的数量及分布对模型估计准确性的影响,及其结果将为如何进一步布点以提高大气污染监测准确性提供了重要参考。