基于CPU-GPU架构的列存储系统并行查询与优化

来源 :东华大学 | 被引量 : 1次 | 上传用户:durrenchen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着业务数据的积累,特别是网络数据的快速增长,利用科学的手段快速处理数据,从多个不同的角度分析数据的需求不断增长。多核CPU,以及多核CPU集成GPU硬件架构的出现为快速处理数据提供了新的可能。特别是,将CPU-GPU架构和读优先的列存储数据仓库技术相结合可极大地提高查询处理的速度。列存储数据仓库技术主要关注数据的查询与分析,而数据的查询分析操作一般表现为在多表之间的连接操作基础上对结果集进行分组聚集等操作。因此,表连接和聚集操作成为了影响OLAP性能的两个重要因素。而另一方面,硬件架构的发展为多表连接和分组聚集的性能提升提供了新的可能。目前针对单机上的并行查询处理研究主要分为三类:单机多核并行查询处理、GPU并行查询处理以及CPU和GPU协同并行查询处理。现有研究存在如下几点缺陷:基于行存储的数据划分策略,以元组作为基本处理单位,当出现多表连接时,表存在多个外键,需按照一定的规则选择主划分属性和辅助划分属性。现有数据划分策略难以直接应用于异构平台列存储系统中,需要根据硬件特点对其重新设计。此外,CPU和GPU之间细粒度的并行策略,主要通过将任务进行划分,并未考虑充分CPU和GPU的利用率。因此,CPU和GPU某方负载过高而另一方负载过低的不平衡现象频繁出现,极大地影响了协同执行的效率。为此,本文研究了异构平台上的数据划分策略和任务分配模型,并将之有效地融入列存储数据仓库,然后设计并实现了混合并行查询引擎。本文的具体研究工作如下:1.针对列存储系统按列存储数据,相邻数据具有较高相似性的特点,设计了硬件敏感的ICMD数据划分策略。同时,设计了一个任务分配模型,分配并动态调整CPU和GPU的任务负载。2.论文深入研究了列存储数据库查询引擎的结构设计,结合CPU-GPU架构的特点设计并实现了一个混合并行查询引擎。3.基于异构平台数据传输的特点,本文提出了一种查询优化策略。通过重写查询执行计划,合并CPU和GPU处理器之间的数据传输,使查询性能得到了进一步的提高。4.最后,本文在我们实验室研制的列存储数据仓库系统DWMS中具体实现了上述各项技术,并以SSB基准数据集为测试数据进行了测试。通过查询性能的对比实验,验证了数据划分策略、任务分配模型及混合查询的有效性。实验结果表明:基于HPQE混合查询引擎的数据仓库复杂查询性能相比于DWMS提升了23%,相比于基于GPU查询引擎-Ocelot的数据仓库提升了18%;结合执行计划优化策略和HPQE混合查询引擎的数据仓库复杂查询性能相比于DWMS提升了87%,相比于基于GPU查询引擎-Ocelot的数据仓库提升了68%。
其他文献
为了让CPU更快,人们设计的CPU变得越来越复杂且不规整,如增加乱序执行单元、超流水线、分支预测和投机等等技术;不幸的是,这些技术已经基本没有潜力可挖掘,而且也无法很好的控
大规模的人群仿真在电影特效、电脑游戏等有大量的应用,但是人群规模达到一定数量后很难实现其实时性,单纯依靠串行算法进行大规模人群仿真已经无法满足当前各种应用的需求,
随着通信业的发展,人们已经逐渐习惯了随时联上网络了解最新资讯,分享工作成果,购买心仪产品的生活。从以单个计算机为主的远程通信系统,到多个主计算机通过通信线路互连起来
人体跟踪是运动人体视觉分析中非常活跃的一个课题,其在智能监控领域中广泛的应用前景和潜在的经济价值激发了广大科研工作者的浓厚兴趣,也使它成为研究的热点问题之一。本文
主元分析作为一种多元统计分析方法,广泛应用于数据处理和简化中。这种方法试图通过对数据协方差矩阵进行对角化,从而找到数据中最主要的元素和结构,去除噪音和冗余,对原数据进行
由于受成本的制约,传感器节点的能量、处理能力、存储能力都十分受限。因此,无线传感网路由算法的首要目标是节能,算法也不能有太高的运算复杂度和空间复杂度,运行在传感网上
或许在未来的20年里,WebService将会成为软件开发领域最热门的话题,随着WEB2.0的迅速普及,如何利用好WebService这一新技术就成为一个非常重要的课题。   尽管SOA(ServiceOri
相似连接算法在数据清理、数据集成和重复网页检测等领域有着广泛的应用。相似度的度量方法有多种,包括Jaccard相似度,Cosine相似度,Dice相似度和Hamming距离等。本文中主要
随着Android智能手机的普及,其系统安全问题越来越受到人们的重视。普通用户日常使用Android手机时问长,系统内通常会储存重要文件和隐私信息。相对于传统桌面设备,用户行为
企业以项目管理为主线,为参与项目活动的所有干系人提供了信息共享的平台,并全面记录和控制各项经营活动,达到项目管理要管理一切事和人的目的,提高管理工作效率。本文系统就是以