Query Engine的设计与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:wwwvv9vvcom
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,工业界尤其是互联网行业,在日常的业务运转中产出了大量的用户与服务数据,对这些数据进行存储、处理和分析的需求也在急剧的增长,这些数据的量已经远远超出了单台计算机的处理能力;如何对海量数据进行管理和分析成为一个研究的热点。分布式思想和基于异构数据源的数据分析为我们提供一个解决问题的思路。针对百度特定的应用需求,现有统一资源查询平台暴露出的问题,以及对业界现有系统的调研分析,设计实现了基于异构数据源的高效查询引擎QueryEngine。本文主要研究了对HDFS上数据的高效Ad hoc查询,在此基础上实现了基于异构数据源的高效查询功能,Query Engine作为一个中间的服务层,对用户屏蔽了底层存储的异构性。本文的主要工作包括以下几点:(1)设计实现了Clinet子模块,参与Query Server子模块的设计与代码的编写。Client子模块是一个命令行交互界面,接收用户输入的命令行,对命令选项进行解析;向Query Server请求一个Query Master为其服务,然后将解析好的命令行提交给Query Master。Query Server负责维护系统中所有Query Master信息。(2)实现了基于异构数据源的高效查询。Query Engine系统是搭建在异构数据源的一个服务层,Query Master子模块对SQL进行解析,通过MetaServer上全局的元数据信息将SQL编译成物理执行计划,MapReduce Node根据执行计划中的依赖关系进行分布式计算,最后将不同数据源上的计算结果合并,对用户屏蔽底层异构存储。(3)Query Engine系统架构设计。通过对分布式计算和分布式存储基础理论的深入分析和当前业界现有系统架构的调研,提出了基于异构数据源的高效查询引擎Query Engine的架构;然后对各子模块的功能进行细化分析,给出了子模块的框架图、时序图,并逐一实现了这些子模块;Query Engine通过建库、建表、权限管理等功能很好的支持了对海量数据的管理,通过实现基于异构数据源的查询功能很好的支持了对海量数据数据分析。
其他文献
目前电子商务行业增长迅猛,2010年其站点数已达1.56万家,全国的交易量也达到2500亿元。这些巨额的数字背后,是对海量数据存储和访问的需求。传统的集中式数据库在面对海量数据访
该文在开始部分重点阐述了我们所面临的网络安全问题,并从信息系统整体安全的角度强调了网络安全的作用和意义.随后,作者详细阐述了虚拟专用网技术的产生和发展,并依据虚拟专
该文共包括七章内容:第一章阐述了IP网络管理系统的现状、局限性和发展趋势,以及IP网络资源管理的概念、特点和系统的设计思想.第二章介绍了该系统使用的关键协议和相关技术,
该文以移动IP环境下可靠传输协议SCTP和TCP的性能优化为主线.通过仿真评估SCTP协议在移动网络中的性能,并分析SCTP协议的不足.在此基础上,为了解决在无线链路上SCTP的不足,文
该文就CORBA平台一致性测试方法方面的内容从理论和实践的角度进行了探讨.借鉴OSI一致性测试方法和ODP一致性参考模型提出了一种CORBA平台一致性测试方法.该方法对一致性测试
IPSec是IETF提出的IP安全标准,是在IP层对数据包进行高强度的加密和验证,使安全服务独立于各种应用程序,利用IPSec构建VPN代价低廉,可扩展性强,得到越来越广泛的重视.该文针
远程虚拟实验必须完全网络化是构建虚拟实验室最基本的要求,而网络支持环境基于Internet也是必然选择。但基于IP协议的Internet是一种尽力传输机制,且采用面向无连接的机制。以
随着计算机技术的发展和应用的不断深入,软件系统的规模和复杂性日益增加,对软件系统适应变更的要求也越来越高,使得传统软件开发方法,特别是大型软件系统的开发陷入困境。研究表
当今世界,信息技术飞速发展,有力地推动着人类的社会发展和文明进步,信息化水平已成为衡量一个国家现代化和综合国力的重要标志。伴随着信息技术与信息产业的发展,网络与信息安全
该文就SLA及其管理的概念、管理框架、SLA表示和SLA管理系统方面的内容进行了探讨.基于TOM商务处理思想和SLA生命周期管理方法提出了一种支持SLA管理的IP业务QoS管理框架.该