列存储系统中并行查询处理的研究与实现

来源 :东华大学 | 被引量 : 1次 | 上传用户：hgtata

【摘要】

：

随着网络的普及,信息时代的到来,人们日常生活所面临的数据已经非常巨大,如何围绕这些数据建立数据仓库、进行数据挖掘和数据分析正逐步成为数据处理的主题。如何快速准确分

【作者】

：

张光辉

【机构】

：

东华大学

【出处】

：

东华大学

【发表日期】

：

2014年01期

【关键词】

：

列存储多核处理器传递块缓冲区并行化设计多线程

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着网络的普及,信息时代的到来,人们日常生活所面临的数据已经非常巨大,如何围绕这些数据建立数据仓库、进行数据挖掘和数据分析正逐步成为数据处理的主题。如何快速准确分析这些海量数据,对数据仓库系统有了更高的要求。传统的基于行存储的关系型数据库系统已经不能很好地适应海量数据分析的要求,而基于列的存储模型能够较好地支持海量数据分析。近年来,微处理器的发展非常迅速。由于处理器功耗与设计的限制,处理器的发展趋势正逐步从单核心高主频到多核心处理器发展。现在单核心处理器几乎从处理器市场中消失,而片上多核处理器(chip multipro-cessor,CMP)已经成为该市场上的主流。多核处理器能够为列存储并行查询执行提供硬件环境。本文主要研究多核处理器环境下列存储系统的并行查询设计与实现技术。论文以我们实验室研制的列存储系统DWMS为依托,研究现有的查询技术,设计并实现了一套基于多核处理器的并行查询模块。1、分析一条查询语句在处理过程中的各个阶段的基础上,并为多个查询阶段的查询优化做出并行化分析。2、设计了基于OpenMP技术动态分配的多线程快速排序算法。3、设计了多个多线程hash连接算法,可根据具体的情况选择合适的连接算法。4、分析多查询基础上设计了一个简单的多查询并行。5、对基于传递块的查询执行模型进行分析后,建立了传递块缓冲区。以传递块缓冲区为数据流转中心设计了基于流水线的查询并行化方案。这种设计主要将父子节点间传送数据的方式由传递块改为传递块缓冲区,这样操作节点只对缓冲区读写数据,父子操作节点之间实现了分离。通过对缓冲区的有效管理,能够很好地提高DWMS的查询性能。6、论文最后对整个查询的并行设计做出分析,通过对相关参数、缓冲区数量和并行模块的进行设置,进一步提高查询性能。在多核环境下,论文对DWMS数据仓库原型系统进行了多线程设计,主要是对操作节点的并行化设计和流水线并行化设计。通过理论分析和相关实验的验证,表明我们的查询并行化设计可以有效地提高DWMS的查询效率。

其他文献

基于OPC的信息融合研究与应用

随着社会的进步和信息技术的发展,特别是在“智慧城市”、“智慧地球”等理念提出后,人们越来越重视智能信息融合系统的开发。通过智能信息融合系统不仅可以达到智能监控的目

学位

信息融合数据流OPC对象模型

基于条件、参数与状态变异的第三方构件安全性测试方法研究

基于构件的软件工程(CBSE)由于可实现构件的复用及“即插即用”的特点，大大缩短了软件开发的周期，降低开发及维护的成本，已经成为面向对象软件工程领域的研究热点。同时，随着构件

学位

第三方构件安全需求说明条件变异安全漏洞检测原型系统面向对象

基于语义事件的手术视频内容分析和分割方法的研究

随着计算机技术和网络技术的不断发展,各种新的媒体信息交换和应用形式已经完全融入了人们的日常工作、生活和娱乐之中,每天都在产生大量的视频数据。在医学领域同样也存在大

学位

语义事件内容分析隐马尔可夫模型

基于模糊分类与压缩感知的掌纹识别算法研究

随着计算机技术的不断进步,掌纹识别技术已逐渐成为在模式识别、人机交互和机器学习等核心领域中的研究热点之一。掌纹识别具有侵犯性低、成本低、稳定性好等优点,已受到业界

学位

掌纹识别(2D)~2PCA模糊分类压缩感知

基于云计算的并行聚类算法研究

近年来,随着信息技术和数据库技术的迅猛发展,尤其是互联网的广泛应用,需要分析和管理的数据迅速增多。数据挖掘技术便应运而生,聚类分析是数据挖掘领域的重要内容和基本工具

学位

密度聚类层次聚类云计算MapReduce

粗糙集的五类拟阵结构

粗糙集理论是一种处理模糊和不确定知识的数学工具，利用已知的知识库，通过上近似算子和下近似算子来近似刻画和处理不精确的知识。它已经被广泛应用于医学、机器学习、决策分析

学位

经典粗糙集基于关系的广义粗糙集拟阵划分圈拟阵2-圈拟阵

基于线指数的恒星大气物理参数提取方法的研究

现在国际上的大口径兼大视场望远镜有美国的Sloan数字巡天望远镜,英澳天文台的2dF巡天望远镜,我国的LAMOST巡天望远镜等。它们将得到海量的光谱数据。通过观测获得恒星的光谱

学位

Lick线指数多元线性回归人工神经网络支持向量机恒星光谱参数郭守敬望远镜(LAMOST)

基于Cppcheck软件缺陷模式的研究与定位

随着科学技术日新月异的发展和软件规模的不断扩大，软件在各个行业得到了广泛的运用，已经成为生活中不可分割的组成部分。虽然软件经过严格的测试，但是每千行代码中平均仍然有10

学位

缺陷模式Cppcheck抽象区间集数组越界

基于概率主题模型的中草药文献服务系统的研究与实现

当今的互联网处于大数据爆炸的知识时代,每天都会产生各种类型、各种结构的海量数据资源等待有效利用和深层挖掘。其中文献数据是科研人员进行相关学术研究,产生新的研究成果

学位

向量空间模型主题模型LDAMCMC吉布斯采样

使用波形能量衰减率识别爆炸事件

随着社会经济的发展，经济活动水平的不断提高，每年人工爆破的发生频数越来越多。在地震观测台站观测到的波形数据中，如果不作适当处理极易将人工爆炸与天然地震相混淆，地震与爆炸

学位

天然地震人工爆炸S波衰减率识别分类特征提取

列存储系统中并行查询处理的研究与实现

其他学术论文