论文部分内容阅读
近年来,随着雾霾天气的增多,公众的注意力逐渐聚焦到空气质量上来,目前空气质量已经成为社会与大众共同关注的环境问题之一。污染源的分布、气象因素和污染物的类型等多种因素影响着城市空气中污染物浓度的高低,不同的城市污染物浓度的分布特征不同。因此,深入讨论污染物浓度之间的关系和气象因素与污染物浓度之间的关系,预测PM2.5的浓度,对研究城市环境污染、空气质量问题及研究对于这类问题有效的预防措施具有十分重要的意义。本文以“基于空气质量监测大数据的污染物分布建模技术研究与应用”课题为背景,以空气污染物浓度为研究对象,提出了一种基于ARIMA-SVM的PM2.5浓度预测模型,以提高PM2.5浓度预测的准确率;并在此基础上实现了空气污染物监测原型系统。主要研究内容包括:(1)空气污染物数据的预处理:针对数据中含有缺失值的问题,利用多重插补法填补缺失值;利用机器学习中的K-means聚类算法识别异常值,由六种污染物数据生成标签,再将数据根据聚类中心进行聚类,将异常点删除。以此整理出质量较高且具有代表性的数据。(2)属性间相关性分析:利用Spearman秩相关系数分析污染物之间的相关性、污染物与气象因素之间的相关性;构建PM2.5浓度分别与其它五项污染物浓度间的线性回归模型,验证通过Spearman秩相关系数得到的结论。(3)构建PM2.5浓度预测模型:重点研究了ARIMA、SVM算法,并将这两种算法结合,构建了基于ARIMA-SVM的PM2.5浓度预测模型。该模型将SVM与ARIMA结合,弥补了传统的ARIMA时间序列预测不能处理非线性数据的不足之处,提高了预测的准确率;同时构建了基于Keras的LSTM神经网络模型预测PM2.5浓度;将ARIMA-SVM组合模型与LSTM模型进行了对比分析。(4)空气污染物监测原型系统:利用Pycharm、Hbuilder等工具设计并实现了空气污染物监测系统。系统实现了城市搜索、城市AQI指数排名、城市各个检测点污染物浓度以及AQI变化趋势等功能。