【摘 要】
:
近年来,随着各行各业大数据分析处理应用需求的不断增长,各种不同类型的数据库系统得到了蓬勃发展。这些系统在查询语言、计算模型、系统架构与底层存储技术等方面往往存在很大的差异,大大增加了大数据分析处理的复杂度,也限制了跨平台查询分析的可能性。同时,许多现实的业务也提出了通过SQL语句便捷、高效地执行跨平台查询的需求,跨平台查询逐渐成为学术界与工业界的一个研究热点。为了解决跨平台查询系统的易用性、统一性
论文部分内容阅读
近年来,随着各行各业大数据分析处理应用需求的不断增长,各种不同类型的数据库系统得到了蓬勃发展。这些系统在查询语言、计算模型、系统架构与底层存储技术等方面往往存在很大的差异,大大增加了大数据分析处理的复杂度,也限制了跨平台查询分析的可能性。同时,许多现实的业务也提出了通过SQL语句便捷、高效地执行跨平台查询的需求,跨平台查询逐渐成为学术界与工业界的一个研究热点。为了解决跨平台查询系统的易用性、统一性与性能问题,本文研究了基于SQL的跨平台统一查询系统模型和框架、跨平台查询优化技术、数据迁移技术以及完整的系统设计,在此基础上设计实现了一个跨平台统一大数据SQL查询系统Sloth。本文主要的研究内容与贡献点包括:(1)研究并提出了一种统一的跨平台查询模型,为用户提供支持跨平台SQL查询的统一查询语言并屏蔽底层执行平台的异构性,允许用户在一个查询语句中对不同底层数据源中的表数据进行连接(Join)操作;该模型按照解析、优化、调度的流程处理用户提交的查询语句,并根据执行计划自动完成子查询调度与数据迁移,使跨平台查询的整个过程对用户完全透明。(2)提出了一种先进的两阶段跨平台查询优化器。第一阶段是一个基于规则的优化器,负责对逻辑计划进行预处理,由逻辑计划优化、子查询划分以及连接重排序(Join Reordering)三个步骤组成;第二阶段是一个基于代价的优化器,枚举所有可能的执行计划并计算各执行计划的代价,并利用动态规划方法减少开销,从而快速找到最佳执行计划。(3)提出了一种在线调整多平台系统物理设计(Online Physical Design Tuning ofMultistore)的方法,根据查询历史周期性地将频繁使用的查询结果持久化到合适的底层平台上(即生成物化视图),并通过基于语义的视图匹配算法复用物化视图数据,以代替跨平台查询中部分子查询与数据迁移操作,从而优化跨平台查询;提出了一种基于语义的Spark Shuffle数据复用技术,以优化SparkSQL执行Join的性能。(4)基于上述框架与优化方法,研究并设计实现了一个高效的跨平台统一大数据SQL查询系统Sloth,其集成了 SparkSQL、MemSQL与PostgreSQL三个主流数据库系统。Sloth为用户提供统一的跨平台查询语言,屏蔽底层平台的异构性,并实现了多平台间的并行化数据迁移以提升迁移性能,从而自动、高效地执行用户提交的跨平台查询,为用户提供平台透明性与执行透明性。实验表明,本文提出的Shuffle数据复用技术有效提升了 SparkSQL执行Join的性能;与MuSQLE相比,本文系统Sloth的并行化数据迁移技术大大提升了数据迁移的性能,最高可达8.9倍性能提升;与MuSQLE、SparkSQL、PostgreSQL和MemSQL相比,Sloth在跨平台查询上取得了最佳性能,加速比超过一个数量级。
其他文献
污水处理厂二级出水是药品和个人护理用品(PPCPs)进入水环境的主要来源,由于传统生物处理工艺效率较低,导致大量难生物降解PPCPs进入水环境中。臭氧氧化是去除污水中PPCPs的有效手段之一,而广泛共存的二级出水有机物(EfOM)及其组成和浓度对PPCPs臭氧氧化降解效率和机制起着至关重要的作用。因此,本文以臭氧氧化为PPCPs污染控制技术,针对模拟EfOM和真实二级出水体系,系统研究了不同初始p
癌症相关恶病质是一种多因素综合征,表现为非自主性体重减轻(主要是骨骼肌和脂肪组织)。尽管癌症相关恶病质的筛查、诊断和治疗已经有很大进步,但是它仍是一个严峻的医疗问题。研究表明,脂肪组织的分解先于骨骼肌减少而发生,说明脂肪组织在癌症相关恶病质的发生发展中起了重要的作用。然而,癌症相关恶病质引起的脂肪分解鲜有报道。外泌体(Exosome)是一类直径为50 nm到150 nm的具有脂质双分子层的囊泡,最
由于不同的生活环境和习惯的原因,癌症,作为恶性肿瘤的一种,已经严重损害了人们的身心健康和生活质量。乳腺癌作为女性最常见的肿瘤,同时也是女性最直接的安全隐患。病理诊断把肉眼可见的器官拓展到镜下观察的细胞,已经被广泛认为是临床诊断的“金标准”。但是病理图像数据量巨大,专业性强。人工标注十分耗时并且带有很大的主观随机性。因而,开发计算机辅助病理诊断算法是一项重要的工作。近些年来,随着卷积神经网络在自然图
湖泊是陆地生态系统的重要组成部分,支撑着众多生物的生存繁衍,对人类生产生活具有重要影响。湖泊的变化可以有效反应过去一定时间内气候改变和人类活动带来的影响。遥感技术快速发展的几十年间,对湖泊变化的研究已经取得了丰富而卓有成效的进展。但依旧存在一些不足之处,比如还未对全国大湖泊的变化趋势进行研究,在水体识别方面还存在些许的不足。本文围绕现有研究中存在的不足,从湖泊面积方面入手,探讨我国大型湖泊(鄱阳湖
随着智能移动设备的升级和普及,移动互联网监控及组态设计成为现代智能制造时代工业互联网应用的关键技术之一,用户希望使用手机等移动设备随时随地都能进行监控组态画面,而不是将工作地点局限在厂房和办公室。互联网技术发展迅速,编程语言愈趋完善成熟,网页程序表现能力和桌面程序表现能力相差无几,采用B/S(Browser/Server)模式设计,组态监控软件可实现跨平台特性,可在智能移动设备上运行。但是因为PC
CO2的电化学还原是一种极具前景的实现可再生能源高效利用和CO2增值的方式。然而,CO2的C=O键高度稳定,且水溶液中存在氢析出(HER)竞争反应,因此开发有利于CO2还原反应(CO2RR)而抑制HER的高效催化剂具有重要研究价值。其中,过渡金属和氮掺杂的碳材料(M-N-C)被认为是新型的单位点催化剂,在CO2RR方面具有巨大的潜力。但是,M-N-C单位点催化剂仍存在活性位密度低、电荷转移动力学迟
随着信息化社会的发展,法律系统也迎来了信息化改革,最高法院提出建设立足于时代发展前沿的“智慧法院”。数据有效性与专业性是实现法律信息化的前提与基础。传统的数据采集以统计为导向,多靠人工录入,存在由于主观性强而导致数据不够客观的问题。如何将标准不一的主观性文字描述信息转换成统一标准的结构化数据成为关键。本文研究的大数据案例解析系统便是为了解决上述难题而诞生的项目。本系统对法律文书进行信息提取,将其转
水体流动会影响沉水植物的生长与分布,从而限制沉水植物的恢复。本文以沉水植物苦草(Vallisnerianatans)为研究对象,重点探索了水体流动对水体溶解氧(Dissolved Oxygen,DO)含量、苦草的生理生化特性及苦草叶片表面附着生物组成的影响,并通过水体流动与静态的转换进一步验证水体流动对苦草生长的影响,从水体流动影响水体DO含量而对苦草产生影响的角度出发,探究不同DO含量对苦草生理