基于列存储的OLAP多查询优化策略研究与实现

来源 :东华大学 | 被引量 : 2次 | 上传用户:wlf844767898
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
凭借纵向分割的灵活特性,列存储已被证明比行存储更适合查询密集的分析型应用。作为分析型应用之一的OLAP,其基本操作可以被映射为一组比较复杂且运行时间长的查询语句。研究表明,利用列存储实现OLAP应用有望获得较好的执行性能。但是,在多查询优化方面,列存储的纵向分割特性反而破坏了维表数据的层次关系,使得行存储的优化策略不再适用。此外,列存储系统查询执行过程中大量列与列之间的连接操作使得全局计划空间大幅膨胀,传统搜索算法缺乏实际可行性。针对上述情况,本文提出了一种基于列存储的OLAP多查询优化策略。该策略既保留了列存储系统的读优化特性,又实现了多查询间的操作和数据复用。   本文主要贡献如下:根据列存储系统和OLAP操作的特点,提出一系列转换规则,为OLAP查询请求所对应的一组相关查询语句生成一个单一全局查询计划;在全局计划中引入新的过滤结点、分组结点、合并结点和聚集结点,并为这些结点设计共享复用属性;改进MuGA(MultiplyGroupbyAlgorithm)算法,通过分组结点、合并结点、连接结点分别为维表和事实表元组标记分组序号,从而实现列扫描、列连接的共享;同时,为聚集结点提出一个多阶段聚集算法,结合最终生成的事实表复合分组序号,实现聚集操作的复用。   与此同时,本文在达梦列存储数据仓库管理系统项目的基础上设计了OLAP系统多维模型的定义与创建,介绍了查询语句组词法语法解析到全局计划构建的处理流程,并简单论述了物理执行实现的设计思路。采用SSB数据集设计模拟的一系列实验表明,在处理海量数据时,列存储和多查询优化能够帮助OLAP系统大幅缩短响应时间。
其他文献
随着计算机性能的大幅度提高,人们对计算机的要求也不断扩大。计算机获得外部信息主要依靠计算机视觉,运动目标的检测与跟踪是计算机视觉中最热门的研究课题之一。只有先将背景
结合我国统一坚强的智能电网建设需求,为应对电力信息化建设可能出现的海量数据,寻找行之有效的并行且弹性的数据处理技术是解决该问题的关键所在。MapReduce是由Google提出的基于大规模集群的分布式计算框架。Hadoop是Apache开源基金会开发的分布式系统的基础架构,包含MapReduce和HDFS。其良好的扩展性能和简单易用的操作特点,使之成为云计算的主流平台。本文进行基于MapReduc
嵌入式系统的三个基本特征:资源紧凑有限、时间约束严格、成本极度敏感,并且嵌入式软件本身由于需要处理大量中断,许多嵌入式软件性能指标(系统吞吐量、任务处理能力、堆栈深
近年来,随着我国经济的迅猛发展,企业信息化进程不断推进,作为我国经济建设基石的中小企业的信息化建设越来越引起业界的重视。然而,由于中小企业普遍存在着经济实力弱、个性
人脸识别就是利用计算机技术,通过对人脸图像的分析,提取我们所需要的一些特征信息,用来做身份识别或者目标追踪。它主要有三个步骤:人脸检测、特征提取和人脸识别。人脸识别
目前,关于计算机网络系统特性的研究已经成为一个热点,其中对于竞争特性的研究尤其引人关注。关于星形网的运行机理早已介绍。竞争—冲突淘汰(C-CC)存取方式,作为星型局域网
Skyline查询处理是数据库技术领域的一个研究重点和热点,它在多目标决策、数据挖掘和可视化、用户偏好查询等方面有着广阔的应用。Skyline查询输出数据集中不被其它任意数据
在数据库中用已有的算法对那些有噪声的、不完整的海量数据进行分析、提取,从而可以得到潜在的、隐含在海量数据当中的、对数据操作有用的信息和知识过程就被称之为数据挖掘
随着Web2.0应用和SemanticWeb研究的成熟,语义电子病历信息的查询在医学科学和信息科学领域里发展成为热点问题。在研究中,学者们抽象出各种病历信息并将其存储为语义网的RDF三
随着Zigbee无线传感器网络的广泛应用,如何通过互联网对远程监控区域进行实时监测、控制和管理逐渐成为该领域的重要研究课题。论文深入学习、研究了Zigbee技术,在此基础上设计