基于Hadoop的多维数据仓库数据划分与查询技术研究与实现

被引量 : 3次 | 上传用户:xxbear0
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着近年来数据搜集手段的长足发展,很多企业所拥有的生产与管理的数据量已经非常巨大,如何存储和检索这些数据指导企业下一步战略变得越来越重要。伴随着Google提出著名的MapReduce计算模型,将关系性数据仓库与该模型整合来处理海量数据上已经成为解决该问题的有效方案之一。但是当前实现的MapReduce模型下的数据仓库在进行分布式存储时并没有考虑到数据间的相关性。如果对数据进行相关存储会在很大程度提高分布式数据仓库上的检索性能。针对这个问题,本文做了三项工作:设计了数据仓库中事实表进行多维衍生水平划分的方案;并将其应该到本文设计的MDChunkDB多维分布数数据仓库中;另外还扩展了Hadoop开源框架中的InputFormat数据接口,使在MDChunkDB数据仓库上运行Hadoop的检索作业成为现实。首先,事实表的多维衍生水平划分方案是将事实表按照指定的参照维的取值不同进行水平分片,划分后的事实表分片中的各个数据元组的参照维的取值上具有相关性。这种分片方减少了检索时启动Map任务的数据节点数量,只有在与SQL查询相关的数据分片上启动Map任务即可,可以在检索时大大提高检索效率。其次,MDChunkDB数据仓库是一个可以建立部署在廉价的超大PC集群上的分布式数据仓库。它通过整合MapReduce计算框架和传统的关系数据库技术,将其两者的优势结合在一起。在MDChunkDB数据仓库中,存储数据的载体是集群中数据节点上的集中式数据库,而对该数据仓库进行并行检索的操作是由MapReduce计算模型来实现。文中详细的阐述了MDChunkDB数据仓库的整体架构及设计中的各个要点:元数据信息、存储策略、容错性与扩展性等等。最后,为了实现MapReduce计算模型与MDChunkDB数据仓库的融合,扩展了Hadoop的InputFormat接口,使MDChunkDB数据仓库上可以运行Hadoop的查询检索任务。通过实验测试了MDChunkDB多维分布式数据仓库的加载性能和检索性能。MDChunkDB数据仓库的加载性能不及HadoopDB,但是大数据量时检索性能优于HadoopDB,并且MDChunkDB可以有效的支持星型模型下的多表连接操作。MDChunkDB数据仓库的并没有完全优于HadoopDB,故在今后的研究中可以通过改进数据仓库中分片存储策略等环节进一步提高其并行检索性能。
其他文献
改革开放以来,我国经济持续平稳发展,城乡居民的收入水平始终在不断提高。在经济发展的过程中,城乡居民的财富不断积累,使得我国城乡居民的财产性收入不断增加,但是同样导致我国城
几百年来随着世界上语言学、心理学、教育学等学科的发展,英语教学法的研究也随之演变和发展,在我国影响较大的有语法翻译法、听说法、认知法、交际法等等,可谓名目繁多。在
目的:探讨联合检测氨基末端脑钠肽前体和高敏C反应蛋白在急性冠状动脉综合征中的临床价值。方法:急性冠状动脉综合征(ASC组)患者96例,分为不稳定型心绞痛组(UAP组)30例,急性
时至今日,無印良品早已闻名全球,旗下各类产品都凭借着"极简"风格而深入人心。如此简单的风格却能在如今琳琅满目、纷繁各样的商品中立足前进,背后定有奥妙。这或与品牌设计
[目的]建立炒神曲中短链脂肪酸的顶空气相色谱-质谱联用分析方法(HS-GC/MS)。[方法]采用HS-GC/MS分析炒神曲中短链脂肪酸。炒神曲样品密封于顶空进样瓶中进样分析。[结果]通过
为工业发展提供“母机”的装备制造业是生产各种专用或通用的生产设备为工业生产提供工具的产业,装备制造业的发展可以带动一系列相关行业的发展,其物流活动在生产过程中所占比
脑缺血再灌注损伤可引起一系列病理生理改变,导致严重的神经功能紊乱。以小胶质细胞和星形胶质细胞激活、炎症介质增加为特点的炎症反应在脑缺血再灌注损伤中起重要作用。本
在科技不断发展的今天,可穿戴智能产品越来越多地出现在人们的日常生活中,也成为了产品设计师所关注的热门焦点之一。文章首先从可穿戴智能产品的发展现状入手,对市场上已有
提供了一种新型特殊结构起重机用PMSM(永磁同步电机),直驱式起重机用PMSM具备体积小、质量轻、结构简单、效率高、可实现直驱控制等优点,实现了起重行业整个起重系统低速、大
进入二十一世纪以来,中国经济进入了新阶段,激烈的竞争迫使更多企业开始注重人力资本投资,企业培训体系的建设成了主要的人力资本投资领域。然而,很多企业缺少这一领域比较成