基于多核处理器的内存数据库查询执行优化研究

来源 :西安电子科技大学 | 被引量 : 1次 | 上传用户:yanmu1984
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的快速发展,各类数据呈爆炸式的增长,数据库系统成为近年来计算机领域的热点研究方向。目前对于数据库系统的研究主要包括:查询执行、查询优化以及数据存储。查询执行是数据库系统的核心部分,包含各种数据库的基本操作,有重要的研究意义。随着半导体技术的发展,单核处理器的性能提升空间十分有限,多核处理器的快速发展,已经成为处理器市场的主流。除此之外,存储器的容量也越来越大,价格越来越便宜,数据库系统中全部数据或者大部分数据放入内存已成为可能。内存数据库的兴起,使研究人员将研究的重点放到了提升数据库算法的运算效率以及提升内存存取效率上,而不再关注硬盘的存取效率。尽管近年来在多核内存数据库查询执行优化技术领域的研究不断取得新的进展,但在利用多核处理器并行资源对一些数据库基本操作进行优化方面,存在有待提高和完善之处。结合目前数据库查询执行领域的研究成果,针对一些数据库基本操作存在的不足,本文利用多核处理器的并行资源对内存数据库中哈希划分算法、自适应索引算法、哈希连接算法进行了优化,其主要工作概括如下:(1)本文总结了多核处理器中解决线程之间冲突的常用方法,这些方法包括:加锁策略、独立空间策略、两次遍历策略,以及并行缓存策略,并分析了这些方法各自的优缺点。在此基础上,针对目前并行哈希划分算法存在的问题,应用和提出了多种改进方法。其中,软件合并写优化先将数据放入较小的缓存区中,当缓存区放满后再放入最终划分结果中,这样可以有效地降低TLB miss数量;绕过缓存优化通过non-temporal writing操作将短期内不再使用的数据直接写入相应的内存地址中,避免通过缓存,提高写操作效率;改进的哈希表支持内存动态分配,保证能够使用软件合并写优化和绕过缓存优化的同时,提高了存取效率,降低了初始化开销;负载均衡优化使得该算法能够适应有倾斜的输入数据。通过实验分析,本文使用的优化方法能够有效地提高并行哈希算法的效率,并使之适应有倾斜的数据样式。(2)本文总结了现有的各种自适应索引算法,并分析其优缺点。在此基础上提出了一种自适应选择优化策略的方法,该方法可以通过划分位置、查询选择率来自动选择优化策略,提升自适应索引算法的效率。除此之外,该方法能根据数据块的查询次数,动态地调整Buffered-swapping Cracking算法中堆结构的大小,提升该算法效率。其次,在原有Adaptive Merging算法的基础上,提出了多核并行Adaptive Merging算法。该方法通过并行排序算法实现了索引结构的初始化,利用线程级并行和基数排序的方法实现了查询语句的执行和索引结构的优化。然后,又研究了多核并行自适应索引算法的优化技术,将加锁并行方法与改进的PartitionMerge算法相结合,在索引中数据块较少时,使用改进的Partition Merge算法,降低线程之间冲突的概率,减少线程等待时间,提高线程利用率;当索引中数据块较多时,使用加锁并行方法,充分利用了多核处理器的并行资源,且提高了算法的鲁棒性。最后,通过实验验证了本文提出的自适应选择优化策略方法、并行Adaptive Merging算法和多核并行自适应索引优化算法的可行性和有效性。(3)本文利用线程级并行和数据级并行优化哈希连接算法。首先提出了基于多核MapReduce模型的并行哈希连接算法,包括非划分哈希连接和划分哈希连接。其次,本文为并行哈希连接算法提出了一种改进的Cuckoo哈希表,该表由传统的Cuckoo哈希表和链式哈希表组成,通过提升哈希表的读写性能来提升并行哈希连接算法的性能。基于上述成果,本文又提出了几种优化方法,包括:利用SIMD指令优化、多步划分优化、负载平衡优化。最后,通过实验验证了本文提出的优化方法可行有效,实验表明:(1)基于多核MapReduce模型的并行哈希连接算法与前期算法相比,取得较好的效果;(2)在多核处理器环境下,划分哈希连接大部分情况下都优于非划分哈希连接,且当线程数量较大时内存存取成为性能瓶颈;(3)影响哈希连接算法性能的因素包括:哈希表的结构、划分数量、划分次数、线程数量、数据集等。
其他文献
省级尺度冬小麦面积的精准获取技术是农作物面积遥感监测研究的主要内容之一。为了获取省级尺度的冬小麦种植面积,该文以北京市(京)、天津市(津)和河北省(冀)3个省域范围为例
随着柴油汽车保有量的急剧增加,其对环境的污染和能源消耗备受人们的关注。推广使用醇类燃料是解决柴油燃料短缺、减少柴油机排气污染的有效措施之一,然而羰基非常规污染物排
传统小家电企业因为具备完善的供应链,转型电子商务要比电子商务初始创业更具优势,但随着近年来电子商务和"互联网+"的蓬勃发展,电子商务竞争激烈、新"玩法"层出不穷。本文从
为获取较精确的县域范围内小麦种植区面积,利用空间分辨率较高的Landsat卫星遥感影像和DEM数据,以河北省唐山市玉田县为例,采用决策树方法对地物进行分类,提取了2004年、2009
加强对人才培养模式的理论研究既是时代发展的强烈呼唤,也是高等教育自身发展的迫切要求。近年来,关于人才培养模式概念的界定见仁见智,关于人才培养模式构成要素的表述也莫
本文首先简要地阐述吟诵艺术在历史、文化、科学、教育诸方面的价值,以彰显其传承之必要。进而指出此项艺术在当前传承中必然会遇到的审美观念、语言运用、平仄声调等诸种疑
中医学关于睡眠的三个学说,包括了卫气运行睡眠说、气血脏腑说、神主睡眠说,虽然它们互相关联,共同组成了中医睡眠理论体系,但是阴阳睡眠理论是总的纲领,本论文对阴阳睡眠理
从坚持中国共产党的领导、坚持统一战线工作必须为党在不同历史时期的总路线总任务服务、统一战线必须坚持大团结大联合的主题、统一战线必须坚持原则的坚定性和策略的灵活性
<正>1前言:为什么地区合作非常重要?本文主要介绍日本基于地区合作的地区性城市建设的最新动向。首先从四个着眼点出发分析动向的背景,然后以变化倾向最显著地区之一的横滨为
以党的十八大以来的反腐败行动为背景,利用中国沪深A股上市公司2010-2016年的财务数据为研究样本,运用双重差分模型(DID)研究反腐败对企业债务融资成本的影响。实证表明,反腐