列存储系统中并行查询处理的研究与实现

来源 :东华大学 | 被引量 : 1次 | 上传用户:hgtata
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的普及,信息时代的到来,人们日常生活所面临的数据已经非常巨大,如何围绕这些数据建立数据仓库、进行数据挖掘和数据分析正逐步成为数据处理的主题。如何快速准确分析这些海量数据,对数据仓库系统有了更高的要求。传统的基于行存储的关系型数据库系统已经不能很好地适应海量数据分析的要求,而基于列的存储模型能够较好地支持海量数据分析。近年来,微处理器的发展非常迅速。由于处理器功耗与设计的限制,处理器的发展趋势正逐步从单核心高主频到多核心处理器发展。现在单核心处理器几乎从处理器市场中消失,而片上多核处理器(chip multipro-cessor,CMP)已经成为该市场上的主流。多核处理器能够为列存储并行查询执行提供硬件环境。本文主要研究多核处理器环境下列存储系统的并行查询设计与实现技术。论文以我们实验室研制的列存储系统DWMS为依托,研究现有的查询技术,设计并实现了一套基于多核处理器的并行查询模块。1、分析一条查询语句在处理过程中的各个阶段的基础上,并为多个查询阶段的查询优化做出并行化分析。2、设计了基于OpenMP技术动态分配的多线程快速排序算法。3、设计了多个多线程hash连接算法,可根据具体的情况选择合适的连接算法。4、分析多查询基础上设计了一个简单的多查询并行。5、对基于传递块的查询执行模型进行分析后,建立了传递块缓冲区。以传递块缓冲区为数据流转中心设计了基于流水线的查询并行化方案。这种设计主要将父子节点间传送数据的方式由传递块改为传递块缓冲区,这样操作节点只对缓冲区读写数据,父子操作节点之间实现了分离。通过对缓冲区的有效管理,能够很好地提高DWMS的查询性能。6、论文最后对整个查询的并行设计做出分析,通过对相关参数、缓冲区数量和并行模块的进行设置,进一步提高查询性能。在多核环境下,论文对DWMS数据仓库原型系统进行了多线程设计,主要是对操作节点的并行化设计和流水线并行化设计。通过理论分析和相关实验的验证,表明我们的查询并行化设计可以有效地提高DWMS的查询效率。
其他文献
随着社会的进步和信息技术的发展,特别是在“智慧城市”、“智慧地球”等理念提出后,人们越来越重视智能信息融合系统的开发。通过智能信息融合系统不仅可以达到智能监控的目
基于构件的软件工程(CBSE)由于可实现构件的复用及“即插即用”的特点,大大缩短了软件开发的周期,降低开发及维护的成本,已经成为面向对象软件工程领域的研究热点。同时,随着构件
随着计算机技术和网络技术的不断发展,各种新的媒体信息交换和应用形式已经完全融入了人们的日常工作、生活和娱乐之中,每天都在产生大量的视频数据。在医学领域同样也存在大
随着计算机技术的不断进步,掌纹识别技术已逐渐成为在模式识别、人机交互和机器学习等核心领域中的研究热点之一。掌纹识别具有侵犯性低、成本低、稳定性好等优点,已受到业界
近年来,随着信息技术和数据库技术的迅猛发展,尤其是互联网的广泛应用,需要分析和管理的数据迅速增多。数据挖掘技术便应运而生,聚类分析是数据挖掘领域的重要内容和基本工具
粗糙集理论是一种处理模糊和不确定知识的数学工具,利用已知的知识库,通过上近似算子和下近似算子来近似刻画和处理不精确的知识。它已经被广泛应用于医学、机器学习、决策分析
现在国际上的大口径兼大视场望远镜有美国的Sloan数字巡天望远镜,英澳天文台的2dF巡天望远镜,我国的LAMOST巡天望远镜等。它们将得到海量的光谱数据。通过观测获得恒星的光谱
随着科学技术日新月异的发展和软件规模的不断扩大,软件在各个行业得到了广泛的运用,已经成为生活中不可分割的组成部分。虽然软件经过严格的测试,但是每千行代码中平均仍然有10
当今的互联网处于大数据爆炸的知识时代,每天都会产生各种类型、各种结构的海量数据资源等待有效利用和深层挖掘。其中文献数据是科研人员进行相关学术研究,产生新的研究成果
随着社会经济的发展,经济活动水平的不断提高,每年人工爆破的发生频数越来越多。在地震观测台站观测到的波形数据中,如果不作适当处理极易将人工爆炸与天然地震相混淆,地震与爆炸