基于改进关联规则算法的空气质量数据关联性研究

来源 :河北工业大学 | 被引量 : 0次 | 上传用户:qcolin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着我国经济建设和社会生产力的快速发展,空气污染已经成为大众和政府特别关注的重要话题。利用日趋成熟的数据挖掘手段,通过关联性理论方法,从空气质量数据中挖掘有价值的隐藏信息,通过分析,得到隐含在海量数据中的关联规则,对空气环境治理决策的制定具有重要意义。基于频繁模式增长(FP-growth)算法思想提出的关联规则算法,存在建树过程复杂,计算支持度繁琐的问题,导致挖掘效率较低。为此,论文提出了一种改进的关联规则算法BCLARM算法,该算法对FP-Tree进行了改进,提出了位编码链表(BC-List)结构,加快了频繁项集的挖掘速度。为了提升算法处理海量数据的能力,将BCLARM算法在Spark平台上进行了实现。最后,研究将该算法用于挖掘空气质量指标间关联性,分析产生空气污染的原因,为空气环境治理策略的制定提供理论依据。论文主要工作内容如下:(1)提出一种基于位编码链表的关联规则算法,用来解决FP-Growth算法存在的建树复杂,挖掘效率不足的问题。算法首先采用基于位图表示的节点编码模型生成位图树(BC-Tree),以BC-Tree的节点信息作为数据结构通过按位运算来快速获取BC-List的节点集,避免了复杂的交集运算,提高了连接效率;其次通过使用超集等价和支持度计数剪枝策略,缩小了挖掘频繁模式的搜索空间。实验证明,该算法相比于FIN算法和DFIN算法具有更快的挖掘速度。(2)针对海量的数据,提出基于Spark平台的的F-BCLFARM算法,该算法使用了一种基于负载均衡的分组策略,用来对BCLFARM算法在Spark平台上的实现进行分组优化,用来达到提升挖掘效率的目的。通过实验,证明了F-BCLFARM算法在并行效果、可扩展性和运行时间上均有良好的表现,并且在处理稀疏数据集和稠密数据集时均具备较高的挖掘效率。(3)将改进的基于Spark分布式平台的F-BCLFARM算法运用于挖掘影响空气污染的空气质量指标之间的关联关系。从监测采集设备中获取每小时空气质量与气象数据,进行数据处理及离散化,并录入数据库。利用论文提出的F-BCLFARM算法挖掘处理后的数据,产生关联规则,分析关联规则并根据结果推测产生空气污染的原因,为空气环境治理提供决策支持。
其他文献
随着先进遥感技术的迅猛发展,大量高分辨率遥感图像被应用于自然灾害监测、城市规划、生态环境评估等领域。广泛的应用迫切需要对众多高分辨率遥感图像进行自动且精确地解译。遥感图像场景分类作为遥感图像解译基础之一,在遥感领域得到了广泛地关注。不同于遥感图像传统的像素级和对象级分类研究,遥感场景分类是一项场景级解译任务。其目的是根据人类的理解对给定的遥感图像赋予场景语义标签(学校、火车站等)。因此,如何获得高
近些年来,伴随着感知技术和智能化发展,对三维数字化的需求逐步提高。基于相位计算的条纹投影三维测量技术能获得物体的形貌数据,并且具有高精度、快速数据处理等优势,因而得到广泛研究和应用。随着对测量速度需求的提升,多光通道三维测量技术应运而生。该项技术同时使用多个光通道,一次测量即可获得多组条纹图,提高了测量效率,为快速测量研究提供思路。在多光通道三维测量中,由于多个光通道间影响以及系统光学器件本身存在
在学习过程中,我们经常会遇到内容繁杂、篇幅较长的叙事类文本。如何读懂这些文本?下面我们就以《记念刘和珍君》为例来谈谈这类叙事类文本的切入技巧。一、从写作目的切入:仅仅是为记念刘和珍这个人吗?作者从刘和珍联想到了什么?创作动机和写作目的,是理解文章的钥匙。在叙事类文本中,
期刊
随着我国新能源产业的逐渐成熟,火电产业的发展正面临着巨大的压力。但是作为传统能源,火力发电仍占据重要地位,如何节能降耗,提高火电机组的运行效率是传统发电集团亟待解决的问题。如今火电厂内部已经建立起了自己的生产管控中心,然而集团总部对于旗下发电厂的管理,与智能化仍然存在差距,随着电厂规模的扩大,程序繁琐等问题日益凸显。此外,火电厂每天都会产生大量高维度、多种类的数据,如何挖掘其深层有效信息也是企业面
近年来,很多学者已经提出了一些半监督社区发现方法,这些方法通过将潜在有用的先验信息(尤其通过主动学习方法获取的先验信息)与网络拓扑结构相融合从而提高社区发现的性能和精度。但是这些方法在融合的准确率和高效性方面存在较大的不足,基于此,本文对半监督社区发现方法进行改进,改进的创新点主要包括以下两方面:(1)针对已有半监督社区发现方法准确率低的缺陷,本文提出了基于约束矩阵的半监督社区发现算法MCSNMF
伴随着互联网行业的迅速崛起,当下社会正在实现从信息时代到大数据时代的转变。作为集成大量学生校园行为数据的校园一卡通系统,在高校信息化的发展中已经得到了广泛应用,给学生带来了极大便利,也积累了海量的学生校园行为流水数据。学生学习成绩作为衡量学校教学质量的一个重要指标,对于学生的成长发展和教师检验教学成果均十分重要。挖掘隐藏在校园一卡通数据背后的信息,分析学生行为与成绩之间存在的潜在规律,成为高校和研
鲁迅在《且介亭杂文二集·“题未定”草七》中说:“我总以为倘要论文,最好是顾及全篇,并且顾及作者的全人,以及他所处的社会状态,这才较为确凿。要不然,是很容易近乎说梦的。”作者创作这两篇散文的社会状态分别是这样的:《记念刘和珍君》写于1926年,正值全国革命高潮的到来,
期刊
近年来,我国持续推动绿色发展,不断促进经济发展与生态文明建设的统一,提出了诸多重要部署以打好生态环境治理攻坚战,这要求我国充分发挥制度优势,在构建污染防治行政机制的同时,也要重视生态产品价值实现机制的创新构建,促进生态补偿制度的多元化与市场化,从而让生态产品投资行为获得足够回报,深刻践行“两山”理念。本文将结合《生态产品价值实现:路径、机制与模式》一书,简述生态产品价值实现的理论基础,同时探
期刊
基于捷联惯导原理的MEMS惯性导航定位技术日益受到重视,由于MEMS陀螺仪精度的限制和捷联惯导的积分解算方式,使得载体姿态估计的误差不断累积,难以实现长时间的精准定位。本文针对室内惯性定位的应用场景,研究采用单目视觉校正惯性姿态估计误差的方法。论文主要工作如下:(1)视觉绝对姿态辅助惯性定姿算法。通过视觉系统获取室内特征参照物的图像,结合已知的参照物姿态,利用透视投影原理,获得当前时刻基于视觉信息