论文部分内容阅读
近年来,随着云计算、物联网的快速发展,各个领域的数据产生速度不断加快,呈现爆炸式增长。世界已经进入大数据时代。电力行业作为数据密集型行业,包含大量的采集监控设备。智能电表的普及以及用电采集频率的提升产生了海量的用电数据。和传统数据挖掘方法处理的静态数据不同,海量的用电数据以数据流的形式实时到达,具有动态性、无限性、瞬时性等特征,需要采用面向数据流的数据分析挖掘技术进行处理。因此,如何设计一个能够处理大规模用电数据的分析系统,以高效、简洁的方式进行有效地数据挖掘分析,将数据转换为商业价值,是一个具有重要意义的研究课题。本文针对大规模实时用电数据的高效挖掘分析问题,构建基于分布式并行框架的数据分析系统,同时,研究数据流聚类方法和不平衡数据流分类算法,使系统能够处理数据流的数据。本文的主要研究内容如下:(1)本文基于开源的分布式并行框架Hadoop和Spark,设计大规模实时用电数据分析系统,系统采用模块化设计,主要分为数据存储层、数据处理层、数据分析层和数据可视化展示层。各层次之间耦合性小,使系统具有较好的可扩展性,同时利用Hadoop和Spark框架的分布式并行处理特性,实现对大规模实时用电数据的快速挖掘分析。(2)针对传统静态数据聚类算法难以适应实时环境下数据高速连续处理的需求,对经典数据流聚类算法CluStream算法中在线微簇聚类效果不佳等问题进行改进,利用分布式并行框架Spark Streaming,提出一种基于时态密度特征的能够适应于数据流的聚类算法DACluStream,提高CluStream的在线聚类效果。通过在人工数据集和真实用电数据集上的实验证明所提算法具有更好的实时聚类效果。在前述用电数据分析系统中提供了 DACluStream算法的实现。(3)针对电力用电数据中存在的数据分布不平衡的情况,结合聚类融合和集成学习的思想,利用分布式并行框架Spark Streaming设计并实现一种基于聚类融合的不平衡数据流分类算法CE-DStream,通过在电力实时用电数据上的实验验证了所提算法的有效性与较好的可扩展性,能够满足大规模实时用电数据分析挖掘的需要。在本文提出的用电数据分析系统中提供了 CE-DStream算法的实现。