电力云数据分析平台数据挖掘算法的研究与应用

被引量 : 0次 | 上传用户:liongliong425
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电网建设速度的加快,智能电网的发展,在智能终端迅速积累了大量的电力数据,一年的数据存储规模将从目前的GB级增长到TB级,甚至PB级,同时,数据维度也从几十向上百过渡。可以利用数据挖掘算法对电力海量数据进行处理,但是传统的数据挖掘算法在面对海量数据时,会面临诸多瓶颈,比如数据的存储问题和它的处理性能等,这就造成了数据挖掘算法不能有效地对海量数据进行处理。云计算具有高可靠性、虚拟性、分布式存储和强大的并行计算能力,并且具有良好的扩展性能,这些特点和数据挖掘相结合就能解决传统数据挖掘所面临的问题。在此背景下,本文对上述问题展开研究。首先,为了有效地对海量电力数据进行负荷预测分析和用户分类,选取了数据挖掘的经典算法:关联规则Apriori算法和朴素贝叶斯算法,对这两个算法进行了深入的研究,特别是算法的思想和算法的计算步骤。其次,在对两个算法的思想有了理解之后,分析传统的算法所存在的不足,并针对算法本身的特点,提出能够改进的地方,关联规则Apriori算法中频繁项集的获取和朴素贝叶斯算法的模型训练阶段需要重复的计算,在这两方面对算法进行并行化改进。最后,采用云计算技术中的MapReduce编程框架以及HBase分布式数据库等技术,对数据挖掘算法进行改进,并设计相应的Map和Reduce函数,以提高其处理海量数据的能力。并且在对数据挖掘算法进行并行化改进之后,将数据挖掘算法注册到电力云数据分析平台上去处理海量电力数据。本文利用MapReduce框架对关联规则Apriori算法和朴素贝叶斯算法进行并行化改进,在实际应用中,利用关联规则Apriori算法去分析气温的高低对电力负荷的影响,利用朴素贝叶斯算法对用户进行分类,并对比了改进之后算法的效率。实验证明,经过并行化处理之后的算法在效率方面有了较大幅度的改进。但是本文只是对算法的一些步骤做了MapReduce的并行化处理,并没有对算法本身进行优化和改进。
其他文献
21世纪以来,我国将危机事件作为重要领域,这与危机事件所造成的社会影响有密切关系。从传媒业的角度上来,危机事件本身蕴含的重大意义对新闻媒体来说无疑是巨大的。新闻媒体可以
非正式经济是政府干预市场的副产品,其在世界各国普遍存在,是一国总体经济的重要组成部分。人们对非正式经济的研究由来已久.,特别是二十世纪六、七十年代,很多西方国家存在
税收是国家为满足社会公共需要,凭借公共权力,参与国民收入分配,强制取得财政收入的一种特定分配方式,它是维护国家正常经济秩序,保证国家富强、国民安康的重要手段。目前,我
进入二十一世纪以来,我们对电网的需求不断提高。然而电力行业却存在着亟待解决的科学问题,例如:探索新的发电方式、提高输送电容量、提高电能利用率等。目前,传统方法只能对电力
电力设备是电力系统的基本组成部分,电力设备故障将直接影响智能电网的安全运行。电力设备故障诊断能够确保电力系统正常的运行,而数据挖掘是实现电力设备故障诊断的关键技术。
混凝土结构是当今土木工程界普遍采用的一种建筑结构形式,主要有现浇混凝土结构和预制混凝土结构两种。由于现浇混凝土结构具有良好的抗震性和整体性,因此其在实际工程中被广泛
晋末内乱,内迁“五胡”乘势而起,在中国北方建立了十六国、北朝诸多民族政权。十六国在剧烈的内、外争夺、碰撞中,时而统一,时而割据,终统一于北魏,北魏末期内乱再起,北方再
本研究以适合山西春播中晚熟区种植的耐密型春玉米品种为试材,于2010-2012年连续3年在山西农业大学农作站开展。试验采用三因素裂裂区设计,通过设低、中、高三个密度水平以及
微小核糖核酸(microRNAs, miRNAs)是一类内源性的非编码小RNA分子,长度大约为19-25个碱基。MiRNAs通过与信使RNA(messenger RNA, mRNA)的3’端非翻译区域(3’-untranslated r
目的:TGF-β促进肿瘤迁移和侵袭。BMPs属于TGF-β家族成员,表达于各种人类肿瘤细胞系中。BMP9是成骨作用最强的成员,我们课题组前期研究发现BMP9过表达可以抑制骨肉瘤细胞的生长