论文部分内容阅读
进行地面观测是气象台站最重要和最基本的工作之一,准确的台站气象观测数据是实现天气预报和气候分析的数据基础,同时也为数值预报模式提供可靠的数据来源。但是一些一般站由于传感器等元件受到环境的干扰,甚至损坏,导致观测出现误差,造成损失。有些台站的数据虽然非常重要,但对于非气象局的单位,比如企业却难以获取,难以利用这些数据产生实际的经济价值,因此如何准确估算出这些台站的观测数据减少损失并使其能够为企业服务则成为有意义的问题。如今在大数据时代,众多机器学习的算法被应用在金融等领域预测风险,气象数据来源众多,但各个数据集精确度不一样,分辨率也不同,如何利用大数据挖掘技术将这些来源众多的气象大数据充分利用,使其融合成一套准确度更高的数据集用来补充地面气象观测站的观测数据是值得考虑的。利用欧洲中期天气预报中心的逐日地面观测资料(ERA-Interim)、CFSR等再分析资料以及台站高度、坡度等地形数据,将这些资料结合在一起,使用随机森林算法对内蒙古地区2014年至2016年地面逐日平均温度进行了估算,同时建立多元线性回归方程和多元非线性回归方程,使用平均相关系数、平均相对误差等统计量对以上不同估算方法的结果进行了比较。结果显示,在内蒙古的23个国际标准站上的估算结果显示,使用随机森林估算的逐日平均温度的平均绝对误差为1.098K,经过插值后的ERA-Interim和CFSR再分析资料平均绝对误差分别为1.504K和1.625K;同时使用线性回归方程和非线性回归方程对内蒙古地区逐日平均温度所有台站的平均绝对误差分别为1.317K和1.204K,经过比较,随机森林算法能够利用不同来源的地面逐日平均温度资料降低误差,形成一套准确度更高的地面逐日温度资料,并且在误差上也低于使用线性方程和非线性方程估算的结果。但是计算效率分析表明,随机森林的计算效率低于以上两种方程,因此提高随机森林的计算效率将有助于完善随机森林算法。研究通过在内蒙古地区的研究初步验证了随机森林在估算地面逐日平均温度的可行性,并有望通过这种方法融合出一套更准确的观测资料使其能在台站观测数据出现中断或难以获得台站观测资料时补充观测结果。