基于内存的分布式列式数据库的查询优化模块设计与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:binics
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着时代发展,各种服务功能的出现使得数据呈现爆炸式的增长,而这些数据中往往含有较大的经济价值。为了对这些大量数据加以利用,分析挖掘其中知识作为决策支持,使得市场各界对于数据分析的需求日益增长。而传统数据库的查询执行方式渐渐不能满足人们的数据分析需求。传统的分布式数据库大多采取“先计划再执行”的方式进行查询优化,这种完全依赖于统计数据和优化器的模型,即使出现了较小的误差,在大量数据的情况下其代价也会放大数百倍。使得这一框架在大数据时代显得十分乏力。相比之下自适应查询系统将是一种更好的解决方案。在自适应查询系统中不再局限于传统的查询框架,而是将一个完整的计划切分为包含多个阶段的子计划,通过前一阶段执行过程中的真实数据对后一阶段的查询计划进行优化使得子计划生成和查询任务执行交叉进行,以此来解决优化器错误估计带来的问题,提高系统的健壮性和查询性能。本文通过使用自适应查询框架设计实现了一个更好的查询引擎。本文主要工作与创新如下:1.解决查询过程中数据倾斜:通过在查询任务执行时进行分布式随机抽样得到统计信息,使用该信息对数据进行重分区,平衡各节点工作压力。2.优化常规自适应查询系统中的重优化流程:引入新的代价估计方法,提出最优子计划有效范围这一概念,使用牛顿迭代法增加不同物理算子有效范围求解的灵活性。通过提前计算存储每个物理算子的有效范围加快重优化的执行速度。3.改善join连接顺序错误造成的系统性能下降:增加对于数据的预join操作,在计划执行时通过维度表生成的过滤器在join操作前对事实表进行过滤,弥补常规自适应查询不能修改逻辑计划的缺憾,使得较差的join连接顺序也能产生接近最优的执行效果,增加系统的鲁棒性。4.提高查询任务并行度:传统基于计划的分布式数据库,更多关注各个查询任务之间的并行度,而未关注单个查询语句的子任务并行度,它们一般按照执行的逻辑顺序将计划切分为各个阶段,但并没有区分主线任务和支线任务。而在面向数据分析的场景下,单个任务执行时就需要耗费很长时间。本系统将对计划进行更细的逻辑划分,拆分出支线任务并发执行以提高单个查询的并发度。
其他文献
江苏省南京市江宁区岔路学校是江宁区第一所九年一贯制学校。学校经过数十年的精细化管理和发展,明确了 "以价值影响价值,以人生引领人生"的教育理念。学校十分重视对义务教育阶段学生的心理健康教育,早在2008年便获得南京市合格心理咨询室资质,并于2020年被评为南京市中小学示范心理健康教育中心。为了让出生在岔路口、生活在岔路口、
期刊
随着大数据时代的到来,人类存储了大量数据,如何高效的处理这些数据也越来越引发人们思考。传统的在线事务联机处理(Online Transaction Processing,OLTP)型数据库系统不能有效的满足人们分析海量数据的需求,而在线联机分析处理(Online Analytical Processing,OLAP)数据库系统受到广泛关注,成为人们研究热点。内存容量的扩大和价格的平民化,使得数据可
推广和应用天然气发动机是优化我国能源结构、缓解能源危机、实现汽车节能减排的一条重要途径,也是治理雾霾立竿见影的一项重要举措。目前对于天然气发动机性能的研究,没有很好地结合天然气的燃料特性和发动机工作特性进行耦合研究,没有从根本上解决天然气发动机因压缩比较低和燃烧较慢而热效率不高的问题,没有解决天然气发动机压缩比升高与爆震趋势、NOx排放增加的矛盾,天然气发动机的性能和节能减排潜力还远未达到其应有的
目前,很多中小学正积极落实教育部对中小学心理健康教育提出的新要求和新举措,心理健康教育在中小学将迎来新的发展。然而,当前中小学心理健康教育仍存在诸多现实困境。在新课程改革背景下,如何有效落实中小学心理健康教育课程也成为学校教育必须解决的问题。一、心理健康教育课程概念界定心理健康教育课程是从学生身心发展特点出发,以培养学生心理素质为目的的专门课程,其课程目标不同于传统课程,旨在引导学生培养自我
期刊
受阻胺光稳定剂因其优异的光稳定剂性能,在涂料、纤维和有机高分子材料中得到广泛应用。近些年来,受阻胺光稳定剂和其中间体的研究已经成为一个热门领域。其中,受阻胺光稳定剂625,是一种分子量适宜、碱性低、迁移率适宜的光稳定剂,可被应用于苛刻的酸性环境中,受到高分子材料领域的极大欢迎。另外,GW-540和HS-508也是常用的受阻胺光稳定剂,而五甲基哌啶醇是合成GW-540和HS-508的关键中间体,对其
学位
近年来,如何提高薄壁吸能结构的耐撞性和实现其轻量化已成为众多科研人员研究的一个热门课题。然而,目前薄壁吸能结构的耐撞性和轻量化设计大部分基于固定截面构型、等厚均匀设计理念,未考虑材料分布对吸能结构性能的影响。这种研究无法充分发挥吸能结构耐撞性和轻量化的潜力,也不利于开发具有更优异耐撞性能的截面形状。因此,如何合理设计吸能结构的截面形状和材料分布以最大限度地提高其耐撞性是研究者们重点关注的问题。基于
目的 总结甲状腺/甲状旁腺术后早期低钙血症诱发的清醒状态下喉痉挛的原因及防治措施。方法 对2例甲状腺/甲状旁腺术后早期低钙血症诱发喉痉挛患者的临床资料进行回顾性分析。结果 1例甲状腺右叶乳头状癌患者行甲状腺全切除,1例三发性甲状旁腺功能亢进症、左下甲状旁腺增生患者行左侧甲状旁腺全切除术。2例患者术后早期血清钙水平较术前迅速下降,患者清醒状态下出现喉痉挛。2例患者均予快速补充钙剂后,呼吸困难的临床症
学位
随着移动互联网和物联网设备的大规模普及,世界进入了后信息社会,21世纪是大数据的世纪。对于海量数据存储、处理和分析日益高涨的需求使得传统数据库不再满足要求,分布式数据库就应运而生了,经过多年发展当前分布式数据库有三大研究方向。一是NewSQL概念,以Paxos或Raft共识算法提供数据的高可用和强一致性的分布式事务,对用户在分布式场景下的一致性需求做满足;二是Sharding技术,基于MySQL多