大数据背景下PM2.5浓度预测的研究

来源 :曲阜师范大学 | 被引量 : 0次 | 上传用户:kkkkkkkkkksssssssss
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着中国经济的快速发展,以PM2.5为主要污染物的雾霾天气频频发生,环境保护是一项紧迫的任务。如今我国已经逐步建立了环境监测系统,但是环境监测站产生的大量数据并没有得到充分的利用,在空气质量状况尚未得到根本改善的情况下,利用历史数据对PM2.5浓度进行预测,帮助公众合理的规避污染也帮助政府提供充裕的管理时间是非常有意义的事。本文的主要研究内容如下:第一章:介绍本文研究背景和研究现状,并且提出了整个论文的研究流程。第二章:列出本文所用的研究理论,包括统计学习、线性回归、朴素贝叶斯理论和模型的评估指标等。第三章:数据获取和数据预处理。数据来源于UCI网站共享数据集,时间跨度为2010年1月2日0时至2014年12月31日23时,包括时间、温度、压强、风速等变量。清洗数据,检查数据一致性,处理过程中的遗漏等,并完成数据的预处理,使数据更好的适应模型。第四章:预测模型的构建。分别是针考虑季节因素的多元线性回归模型和针对严重污染的异常天气预判的朴素贝叶斯模型。(1)针对传统多元线性回归预测模型的改进,主要是依据热力图反馈中的相关性和迭代的特征选择方法进行优化。通过同一个模型评估指标,得分越高越好。传统多元线性回归的模型得分为58.732,根据相关性优化变量后的模型的得分为65.987,经过迭代特征选择后的模型得分为69.657。又对模型进行分季节模型讨论,以冬季模型为例,最终得分高达93.589。(2)针对严重污染天气预判的研究中用了朴素贝叶斯分类的方法,经过多次实验证明,去除时间因素后的模型参数最佳,优化后的模型在测试结果中对异常天气的预判召回率(recall)为0.79,说明接近百分之八十的异常天气可以被准确识别,模型具有一定的应用性。第五章:总结与展望。最终的两个模型都有一定的可行性,但是原始数据集的非平衡性影响了模型对严重污染天气预判的精确率(precision),非严重污染天气数据量过多,使得模型在分类时有所偏向。为了解决这一问题,本文又讨论了基于非平衡数据集模型优化的方法,并给出具有可行性的研究思路以供后续研究。
其他文献
<正>[本刊讯]神州大地绽新颜,喜庆祥和又一年。2018年2月8日,中央保密办、国家保密局召开总结表彰大会,对2017年度优秀职工、先进工作者、十佳青年、优秀青年及荣获中央部门
利用土壤矿物为K源的硅酸盐细菌选择性培养基,从我国部分省市土壤中筛选到30株胶质芽孢杆菌Bacillus muci-laginosus,以辽宁菌种保藏中心胶质芽孢杆菌LICC10201(编号K31)为参
艺术品流通市场监管在我国尚属于一个比较新的领域,其监管部门不明确、监管法律不完善、行业监管不成熟、主体监管不健全。虽然中国艺术品流通市场监管处于一个起步阶段,但是
当前我国很多小企业失败的原因很大程度上是由于缺乏内部控制或内部控制不健全造成的。文章列举了当前小企业内部控制的主要缺陷,分析了小企业内部控制问题产生的外部和内部
义务教育是国家发展的根本点和起点,是整个教育发展体系的基石。要推进义务教育的健康发展,单有学校甚至教育系统的改革是远远不够的,需要从中央到地方系统的政策支持,需要制
本文就"艳照门"事件分析了影响青少年思想道德健康的因素,提出了作为青少年第二课堂的少儿图书馆,应如何对他们进行思想道德教育的措施。
在0.3%,0.5%,1.0%,2.0%预加拉伸应变破坏下,进行了2种配比、不同龄期的工程水泥基复合材料(ECC)的裂缝分布、干湿循环自愈合后力学性能的恢复及不同物相的纳米压痕测试.结果
研究了外源Ca2+对盐胁迫下耐盐性不同的两个水稻品种(武育粳3号和IR36)几种抗氧化酶活性及膜脂过氧化的影响。结果表明:适量的Ca2+供应能有效提高水稻叶片超氧化物歧化酶(SOD
《柏油孩子》作为莫里森描述美国黑人历史和生活状况的第四部小说,其隐喻式叙事和后现代特质引起评论界特别的关注和争议。本文运用空间叙事理论,从地志空间、社会空间和文本