环境监测数据分析与预测模型研究

来源 :北京交通大学 | 被引量 : 1次 | 上传用户:icqn2007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
空气污染影响着我们的健康和环境。2013年国务院发布大气污染防治十条措施(大气十条)以及国家重点研发计划中的环境专项等政策制定和资金支持,都表明国家对环境问题的重视。本论文对环境数据进行分析并对预测模型研究,由五部分组成。第一部分阐述了研究背景、内容和研究意义。随着大众对生活区域内的空气污染指数的关心,大气监测数据由以往的仅仅少数几个重点监测点,发展到区域网格化布点,使得监测时空数据量增长较快。传统的空气质量预测模型因为数据采集点少,只能密切结合地理气象等外部数据,数据不同步同时模型较为复杂。而现在随着大量采集点的出现,能否利用数据挖掘相关技术构建预测模型,是目前研究者们关注的问题。本文研究目的是面对逐渐增加的环境数据进行数据分析,找到合适的数据挖掘技术,进而探索更好的大气环境污染物预测模型。本文的研究过程基于六个步骤(数据理解、数据预处理、传统模型、模型评价、模型解释、比较优化模型)。本研究探索了新形式下的预测方法,是对传统预测模型的有益补充。第二部分是对国外案例分析和数据分析技术的研究。从预测功能方面调查了国外著名案例。美国AirNow,向公众提供易于访问的国家总体空气质量信息和空气质量指数(AQI)。澳大利亚空气质量预报系统(AAQFS)是一个前端显示框架,用于预测下一天的空气质量,该系统输入为气象和排放数据,输出为对空气质量的逐时预测,目前在墨尔本、悉尼和阿德莱德已经投入使用。印度SAFAR(空气质量-天气预报与研究系统等。其后,本文论述了数据挖掘的技术方法。数据挖掘是从不同的角度分析数据并将其归纳为有用信息的过程。数据挖掘技术很多,在本研究中主要采用了数据预处理(数据的选择、集成、过滤、采样、清洗和转换)技术对数据进行分析准备,通过多元线性回归分析(在同一记录内的属性值之间的关系的分析,自动生产的模型,可以预测未来记录的属性值)进行预测模型的建立。第三部分探讨了数据采集和数据处理。本研究从北京市环境监测中心网站收集了空气质量数据。该网站是通过提供预报和实时空气质量信息来保护公共卫生的天气网站。空气质量监测网由分布在北京工业区和交通枢纽区的大量使用无线传感器的监测点组成。使用数据抓取软件从网站中捕获历史数据,数据从35个监控站收集,其中包括12个城市环境评估点,11个郊区环境评估点,7个控制点,以及5个位于北京市的交通污染监测点。数据集是2013年至2016年。以天坛国家控制点为例,以数据统计每1小时计数一次,共有17544个数据。数据分析实验使用17000个数据作为训练数据,544个被用作验证数据。数据参数包括气象参数和污染物浓度参数,气象参数包括(温度,风速,风向,大气压力,相对湿度),空气污染物参数(N02,S02,03,CO,PM2.5和PM10)。使用SPSS软件进行预处理,包括数据清洗和转换,这是数据分析项目中最重要的一步。数据清洗的目的是从数据集中消除噪声和不相关的信息,数据转换是根据数据类型和值将原始数据修改为不同的格式。初始数据集表中包含的大部分原始数据未经预处理、不完整和嘈杂。假如数据中某些值存在一些缺失值,我们针对不同的情况通过三种方法解决,分别是选择使用某些缺失值的平均值,把某些数据的缺失值直接删除,随机从数据集中选择缺失值。通过预处理后数据可以进行进一步分析。通过SPSS分析软件,得到基本的分析结果。第四部分论述了基于多元线性回归的预测模型和实验结果。预测模型是通过使用六个步骤,引入,清理,提取,合并,分组和归一化构建的。我们通过改变输入方式和输入参数来优化多元线性回归,然后通过三个主要测试步骤:相关系数测试、F检验和t检验的度量来评估预测模型的准确度。相关系数测试是确定线性回归模型的良好性的重要指标,相关系数用回归平方和与平方总和的比率表示,其代表因变量y的变化多少是由变量x引起的,也就是说,变量x可以将变化解释为总变异的百分比。F检验用于检验解释变量与解释变量之间的线性关系是否显著。t检验,确定哪些变量应该作为模型中的解释变量保留。同样使用SPSS分析软件进行实验。通过以上测试,可以看出相关系数测试的标准偏差误差为76.712,R平方值为.410,可以调整R平方,优化模型的拟合效果,调整后的R平方值越大,模型的拟合效果越好,所以调整后的R平方值为.705。F检验的显著性为(P值)=0.000<0.01,模型1变量具有显著性,由自变量和因变量(PM10浓度)参数建立的线性关系具有非常显著性和统计学意义。空气压力(hpa),湿度(%),风速(m/s),风向(deg),回归系数(P值)= 0.000<0.05,表明这些回归系数具有统计学意义,温度(℃)的偏回归系数(P值)=0.167>0.01,表明这些回归系数具有统计学意义。在优化多元线性回归过程中,逐步线性回归的结果表明,PM2.5对模型影响最大,同时可以看出,S02、N02、CO、风向这四个变量没有回归意义。虽然这四个变量可以提高模型的拟合度,但拟合度并不是确定最优模型的唯一标准,因此逐步线性回归方程去除这四个变量。验证数据与预测数据的比较结果表明,传统多元线性回归模型的拟合度达到0.405,而优化线性回归模型实验结果表明,通过引入其他污染物浓度和气象参数,优化多元线性模型的拟合度可以达到0.957,其他污染物和气象参数的拟合比例与纯气象参数相比提高了 0.552。第五部分是总结和展望。在过去十年中,大气科学中已经尝试采用了多元线性回归、回归树和神经网络等统计模型对空气质量进行实时预测,但数据量不大使得传统的线性模型效率不高。我们改进了传统多元线性回归模型构建了更好的预测模型。通过数据预处理方法对数据进行分析,然后使用相关系数测试,F检验和t检验来检验模型的准确性,最后将预测结果应用于验证数据。实验结果表明,相比传统的线性回归模型,本文优化的多元线性回归模型的拟合效果更好。改进的多元线性回归模型发现PM2.5浓度参数对PM10浓度参数影响最大。今后,政府机构也可以利用污染监测来规划和发布预警。这样,可以采取预防措施来防止PM2.5污染的不健康水平。在PM2.5水平违反不健康阈值之前,预测并提高警觉对于公共安全和卫生至关重要。可靠的空气质量数据和数据分析方法使人们能够适应和做出明智的决定。
其他文献
107岁高龄的周退密先生,日前于上海辞世。我曾亲近过的这一时代的前辈,已凋丧无余。回忆登楼问学,持茗坐话的情景,如在目前。我与退老的渊源,始于先师孔凡章先生。1996年,我
通过对体验式教学的内涵及特点进行相关概述,针对高职院校尤其是甘肃有色冶金职业技术学院英语教学存在的问题,研究体验式教学法在高职英语教学中的应用策略及措施,希望对今
目的:分析谷丙转氨酶结果异常的影响因素。方法:采用常规方法检测谷丙转氨酶,并对异常结果做乙型肝炎表面抗原、乙肝DNA核酸等检测,并对异常结果的职工进行分组分析。结果:大
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
本文从现代语言学的四大视角讨论了句法的研究.在简要概述各视角的背景知识后,重点阐释了它们各自对句法的解释力,并归纳其优缺点.结构主义的直接成分分析法对语素的研究极为
吸气浮选装置具有分离效率高、体积小、操作稳定、无二次废料处理和污染问题,已广泛应用于油田开采及炼油厂污水处理之中。现介绍一种新型浮选装置-喷射浮选装置的工作特点、基
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield