论文部分内容阅读
随着电网建设速度的加快,智能电网的发展,在智能终端迅速积累了大量的电力数据,一年的数据存储规模将从目前的GB级增长到TB级,甚至PB级,同时,数据维度也从几十向上百过渡。可以利用数据挖掘算法对电力海量数据进行处理,但是传统的数据挖掘算法在面对海量数据时,会面临诸多瓶颈,比如数据的存储问题和它的处理性能等,这就造成了数据挖掘算法不能有效地对海量数据进行处理。云计算具有高可靠性、虚拟性、分布式存储和强大的并行计算能力,并且具有良好的扩展性能,这些特点和数据挖掘相结合就能解决传统数据挖掘所面临的问题。在此背景下,本文对上述问题展开研究。首先,为了有效地对海量电力数据进行负荷预测分析和用户分类,选取了数据挖掘的经典算法:关联规则Apriori算法和朴素贝叶斯算法,对这两个算法进行了深入的研究,特别是算法的思想和算法的计算步骤。其次,在对两个算法的思想有了理解之后,分析传统的算法所存在的不足,并针对算法本身的特点,提出能够改进的地方,关联规则Apriori算法中频繁项集的获取和朴素贝叶斯算法的模型训练阶段需要重复的计算,在这两方面对算法进行并行化改进。最后,采用云计算技术中的MapReduce编程框架以及HBase分布式数据库等技术,对数据挖掘算法进行改进,并设计相应的Map和Reduce函数,以提高其处理海量数据的能力。并且在对数据挖掘算法进行并行化改进之后,将数据挖掘算法注册到电力云数据分析平台上去处理海量电力数据。本文利用MapReduce框架对关联规则Apriori算法和朴素贝叶斯算法进行并行化改进,在实际应用中,利用关联规则Apriori算法去分析气温的高低对电力负荷的影响,利用朴素贝叶斯算法对用户进行分类,并对比了改进之后算法的效率。实验证明,经过并行化处理之后的算法在效率方面有了较大幅度的改进。但是本文只是对算法的一些步骤做了MapReduce的并行化处理,并没有对算法本身进行优化和改进。