DWMS列存储中执行引擎的优化与实现

来源 :东华大学 | 被引量 : 1次 | 上传用户:kerrytony
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高效的查询执行效率是数据仓库管理系统开发时最大的关注点。最近的研究表明,底层数据以列存储的方式进行组织,能够更好地适应数据仓库管理系统面向查询的特征,能够在执行过程中避免抽取查询所不需要的列值,引起多余的I/O开销。除此之外,列存储还拥有比行存储更高的压缩比。论文研究了数据仓库技术、列存储技术,查询执行引擎中的核心模块。结合数据仓库列存储的特征,对现有的查询执行引擎进行了结构与策略两个方面的优化与实现,其中结构方面包括传递块结构的优化与实现以及操作结点的优化与实现,而在策略方面则设计并实现了基于操作结点相对位置的重用度估计模型以及基于该模型的重用缓冲区调度策略。本文研究内容如下:1.论文首先分析了数据仓库以及列存储的特征,着重讨论了MonetDB、C-Store及InfoBright的存储方式与查询执行方式,并总结它们的特征与不足之处。2.然后,论文对列存储查询执行引擎中的核心元素进行了详细地介绍,其中包括查询执行的基本对象——物理执行树,物理执行树的构成单元——操作结点、查询执行时数据在内存中的组织形式以及能够完成数据处理与传递的迭代器及其网络。3.接着,论文对现有列存储查询执行引擎进行了结构方面的优化,其中包括对传递块的结构以及操作结点内部结构的优化设计与实现。对传递块结构的优化主要包括设计并实现了不仅能够存储rowid以及不同类型列值,还能够通过位置关系实现低开销快速元组重构的传递块结构。而对操作结点内部结构的优化主要包括1)以工厂模式的方式进行操作结点开发从而减少重复判断;2)利用数据有序的特性进行谓词选择预判以减少多余判断;3)改进哈希连接结点使其能够灵活适应事实表与维表的位置变换;4)改进传统排序连接操作使其能利用数据仓库中数据有序以及事实表与维表连接的特征;5)设计并实现了同时适用于定长列值与变长列值的列值抽取方法;6)设计并实现了能够灵活适应19种情况的打印操作结点;7)根据“将数组放入函数”的原则对执行引擎进行了整体优化。同时,论文对现有列存储查询执行引擎还进行了策略方面的优化设计与实现,主要包括1)提出并实现了基于操作结点在物理执行树中相对位置的重用度估计模型;2)根据模型的估计结果设计并实现了重用缓冲区调度策略并对其进行了优化。通过多个基于SSB数据集的实验验证了本文提出的优化方法的有效性。最后,论文对数据仓库管理系统列存储查询执行引擎的实现与优化现状进行了总结,并对下一步的研究工作进行了展望。
其他文献
高校信息化建设的大力发展推动了源代码在线评测软件由单一的竞赛平台转向多功能的教学辅助系统。但是在这一过程中,并非所有的源代码在线评测软件都能够良好的应用于教学研究
随着移动互联网技术的日益成熟,移动终端如智能手机、个人电脑、PDA等数目逐年递增,普及率也越来越高。越来越多的人希望能够随时随地地进行通信,享受高质量的网络服务。移动自
移动互联的时代随之到来,触摸屏在移动终端的应用也越来越广泛,这样移动设备上的汉字输入模式不再仅仅是拼音输入和笔画输入,因为手写输入在触摸屏上显得更加简单和快捷;但是
在基于位置服务数据的数据挖掘研究中,数据处理能力已经成为了分析的瓶颈。虽然基于MapReduce计算模型人们可以通过多机并行相对快速地完成计算,但是由于MR模型对数据结构及任
随着计算机制造技术和网络通信技术的飞速发展,计算机的处理能力得到不断提升,网络带宽也不断增大。随之而来的各色应用需求和复杂的应用环境,导致分布式应用系统趋于复杂,系统规
随着无线通信技术的迅速发展,出现了多种无线接入网络并存的局面。将不同无线接入技术、不同传输性能的网络融合到一起构成的单个逻辑网络称为异构无线网络。相比起底层接入
随着互联网的发展和普及,Web信息出现了爆炸式的增长,搜索引擎已成为人们从这些海量信息中获取所需信息不可或缺的工具。但在搜索结果中,排在前几位的并不是用户真正所需的网
近年来,随着网络的发展,现代人对信息沟通和处理的需求越来越迫切,这使得自然语言处理以及相关的应用领域得到了迅速的发展。而由于句法分析在自然语言处理研究中的关键地位及其
广域网文件传输速度慢是目前各大网络公司面临的问题,针对这些情况,探讨了采用重复数据消除技术减少数据传输量,从而提高网络传输速度。在实现重复数据消除的网络节点,探讨了
本文主要通过分析三网融合后故障管理的特点和智能故障管理现有的方法的优缺点,提出了一种改进的基于支持向量机的告警预测方法和一种增量的实时告警刷新方法,主要工作为:(1)