基于MapReduce的Data Cube相关技术的研究

被引量 : 0次 | 上传用户:Jingle2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展和信息技术产业的迅速崛起,由网络产生的数据量越来越庞大,大数据包含了更多有用的信息,也带来了更多的挑战。联机分析处理(On-Line Analytical Processing,OLAP)作为存储和分析数据的重要技术,需要存储和处理的数据量也在大规模地急剧增长。Data Cube是OLAP的主要分析手段,如何高效处理Data Cube中所包含的大规模数据是OLAP研究和应用领域的一个关键问题。由Google公司提出的MapReduce是一种能够在大型计算机集群上并行处理海量数据的框架模型,基于这种分布式并行框架,本文实现了对Data Cube的并行聚类、更新和查询。本文的主要研究工作及所取得的创新性成果有:(1) Data Cube的并行聚类:根据Data Cube的语义特性和多维数据之间的等价关系,提出了一种基于MapReduce框架的并行语义Cube层次聚类算法。该算法能将Data Cube快速聚类,最终保存等价类的上下界来实现对Data Cube的压缩存储。该方法不但节省了存储空间、加快了聚类速度,而且其保存的聚类信息及层次信息为Data Cube中数据的快速更新和OLAP查询行为分析的实现提供了可能。(2) Data Cube层次聚类的增量维护:以Data Cube等价类为基础,结合等价类之间的层次关系,在MapReduce并行框架上提出了一种高效的Data Cube批量更新算法,有效地解决了数据量过大导致维护效率太低的问题。(3)并行的OLAP查询:在Data Cube等价类的基础上,对OLAP点查询和范围查询进行了并行优化,并在改进的MapReduce模型中,提出了一种基于缓存的OLAP查询优化算法,通过定义OLAP查询中的各种运算,并行地进行多个OLAP查询,提高了查询的效率。本文详细分析了语义Cube各种操作的并行化实现。设计了这些操作在MapReduce模型下的实现方案,并将并行算法与传统算法进行了比较,实验结果证明了并行算法的优越性。
其他文献
随着我国经济的持续发展,交通事故的发生死亡人数也越来越多,引起了人们的关注。关于经济发展与交通事故的发展规律,一般用斯密德法则进行解释,即经济发展与交通事故死亡人数
目的探索品管圈活动在神经内科住院患者跌倒预防中的效果。方法选择我科2012年7月-2013年6月跌倒危险因素评分高危患者以及所发生的意外跌倒、坠床事件,运用品管圈管理方法,
目的为我国治疗罕见病的医疗器械的发展提供建议。方法采用文献调研法,结合政策制定及修订背景和动因,分析了美国人道主义器械豁免(HDE)审批途径的主要内容及实施成效,并提出
目的探讨中药活血化瘀法治疗脑卒中危险因子的疗效。方法选择2008年2月-2012年2月在本社区医院收治的脑卒中患者28例,采取血塞通注射液联用丹参冻干粉针对患者进行静脉滴注治
目的临床观察益气醒神方结合针刺治疗脑梗死意识障碍的疗效。方法将108例患者随机分为治疗组、方药组和针刺组,各组在进行基础治疗的同时,治疗组给予益气醒神方加针刺治疗,方
孙中山创立三民主义、五权宪法,并把革命步骤分为军政、训政、宪政三个阶段,以训政作为过渡,承上启下,可说是革命程序的重点和轴心所系。蒋介石向来以继承孙中山的衣钵自命,
家训是古代长辈训诫子孙的教育文献,是中华传统文化的重要组成部分。众多的家训文献有其共同的属性和内在规律。它在教育目的,教育方式,教育实施等教育过程上都具有独自特色
理查德·罗蒂在《哲学和自然之镜》一书中集中提出了一种综合性的和批判性的哲学立场,他通过研究大量的先前哲学家们的著作和文献、再辅以丰富的材料评述了不少欧美的大哲学家
作为社会保障制度的第一块基石,社会救助对扶危救困具有十分重要的意义。我国社会救助制度日益完善,政府和社会各界为社会救助投入了大量人力、物力、财力,在实现社会公正方面发