DWMS中列存储索引技术的研究与改进

来源 :东华大学 | 被引量 : 1次 | 上传用户:wwucg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。数据仓库中的数据量非常大,并且在逐年增大。因此提高查询速度是数据仓库必须要实现的一个功能。数据仓库中索引建立的好坏直接影响数据仓库的查询速度,索引的类型有很多,创建索引能提高查询的执行效率,但是创建过多索引而会带来额外的索引维护和管理开销。如何为合适的字段建立合适的索引,提高列存储多维数据仓库中各种分析查询的性能,是一个机会,也是一个挑战。本文针对列存储数据仓库管理系统中的索引技术展开了研究与分析,具体的工作如下:(1)研究当前主流列存储数据仓库管理系统(如Sybase IQ、C-Store、MonetDB、Infobright)中索引技术,分析达梦数据库实验室中列存储数据仓库管理系统D3WMS (Donghua Dameng DWMS)的体系、特点及SSB数据集结构,以及典型的SQL查询语句中涉及到的索引类型。 (2)分析研究D3WMS中已存在的RB+树索引,验证其空间和查询速度性能。改进其叶子结点结构,进一步提高索引的空间利用率。(3)针对低基数数据,设计实现位图索引,并提出了基于压缩位图的直接计算方法CBT(Compressed Bitmap Index Execute Technology),优化了位图索引的查询算法。RB+树索引将数据源区分为定长和变长数据两类,统一创建行号索引和列值索引。这种分类方式没有考虑数据列基数高低的特性,造成了极大的空间冗余。位图索引能够有效地改善低基数数据的冗余情况,极大地提高空间利用率和查询效率。(4)针对高基数、具有层次关系的列数据,提出并设计了层次编码位图索引,极大地减少了列数据及维表上需要建立的位图、位向量个数,降低了索引存储空间,提高了查询效率。本文实验以D3WMS为平台,以数据仓库基准数据集SSB为测试对象,进行了以下六方面的实验:1)RB+树索引和传统B+树索引的对比;2)RB+树与改进的RB+树空间利用率对比;3)基于压缩位图索引的CBT优化方法与原始位图索引方法的查询性能对比;4)压缩位图索引与源位图索引占用空间的比较;5)利用CBT技术实现分组查询的性能;6)层次编码位图空间占用率对比。实验证明,本文提出的索引方法能有效减少索引空间占用率,提高查询效率。
其他文献
近年来,互联网在人们的日常生活中扮演着越来越重要的角色,每天都会有纷繁复杂的新闻事件以各种各样的形式发布到互联网上。相对于以前传统的报刊杂志,在信息爆炸的当今时代,快节
组播是一种由单个或多个源发送数据包到群组主机的有效通信方式,IP组播技术主要通过路由器实现组播功能,在网络资源的使用上有较高的效率。但是,由于IP组播协议和模型的不足
家庭安全一直是人们关心的问题。传统的家居安防监控系统的各个控制子系统相互独立,未能形成一个有机整体,越来越不能满足用户的要求。安装安全的、符合要求的自动化智能安防系
随着电子商务的迅速发展,人们从网上获取的信息越来越多,顾客有了更大的选择空间同时也带来了一些新的课题。海量的数据信息增加了顾客购买所需的难度,在找到自己需要的商品前必
近年来,信息技术不断发展,互联网络技术在人们的生活中发挥着重要的作用。随之产生的海量数据中存在着大量未被挖掘的信息,没有有效工具的帮助,人们在寻找有效信息的过程中耗
电子邮件是当前互联网上使用最为广泛的服务之一,随着互联网及应用的不断发展,垃圾邮件大量蔓延,造成社会生产力的极大浪费。因此垃圾邮件过滤非常必要,具有重要的理论意义和社会
多视图的学习在最近十几年引起了众多研究人员的极大兴趣和关注。而传统的模式识别和机器学习的方法多是集中在单视图上进行的。这些单视图方法往往通过独立、交替的方法训练
随着互联网的迅速发展,网络问答系统成为一种具有应用前景的远程教育模式。目前国内多数教育问答系统对用户提出问句的理解仍然局限在关键词匹配的模式,反映了实用性和智能性的
随着人工智能的发展,人们对这个领域的研究不断深入。对类似真人发音的语音生成和获取的控制,是机器人发音系统急需解决的问题。DIVA(Directions Into Velocities ofArtculators
无线传感器网络是一种无基础设施的网络,它由一组传感器节点以自组织的方式构成,其主要目的是协作感知、数据采集和处理网络覆盖区域中的感知对象的信息,最后将经过处理得到详尽