企业级分布式数据集成平台的设计与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户：kfk

【摘要】

：

【作者】

：

何学平

【出处】

：

西安电子科技大学

【发表日期】

：

2020年02期

【关键词】

：

数据集成 DAG ETL 任务调度器执行引擎智能监控

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

现代企业中,数据的分析处理等工作往往需要大量的数据抽取、转换和加载(Extract,Transform and Load,ETL)等工作,ETL是数据集成的一种主要解决方案。本论文来源于公司的实际研发项目,由于企业现有的ETL系统存在单机宕机和功能复杂的问题,为解决ETL作业中的宕机和难以使用的问题,本文设计实现一个ETL的数据集成系统,将企业内部各种应用数据集成到一起,供数据分析使用;数据分析的结果,也通过本系统以接口的方式对外提供服务。在ETL数据处理的过程中,面临着数据源多样性、数据的不规范和任务执行过程中的系统稳定性等问题,本文采用分布式架构的设计理念,将系统分成三个基础服务;利用Spark平台的大数据处理能力,Kafka的异步解耦能力及搜索引擎ES的数据查询能力,对ETL作业过程进行了异步解耦,优化数据抽取方案,解决数据处理难题,实现了一个具有可扩展性的分布式ETL数据集成平台。其主要工作内容如下:(1)需求分析与架构设计:对ETL作业作了需求分析,并进行了分布式架构设计;考虑到服务生命周期的不一致,将系统解耦为三个基础服务,详细阐述了解耦的原理及三个服务间的关系;(2)三大基础服务详细设计实现:本部分主要详细解释了任务调度器、执行引擎和监控系统三个基础服务各自的设计与实现。其中任务调度器实现了ETL任务的管理、状态更新,包括任务的DAG解析等;而执行引擎将经过DAG图解析后的Job任务缓存执行;监控系统负责ETL执行过程中的数据源、目标源和执行渠道的监控与智能决策;(3)工程测试:部署了测试环境,分别进行了单元测试、集成测试、分布式部署测试和算法测试。项目采用敏捷开发模式,目前已完成了整体的架构设计和两次的迭代开发。执行引擎部分,完成了针对普通任务的Spark集群方式和定时任务的多线程渠道方式的开发,已经测试并进入灰度发布环节;监控系统部分,本文首次设计并实现了数据库相关指标监控和智能决策算法,并将其完整地应用到了整个的工程中去。在新的一期计划中,还需要增加Flink渠道、其他类型模板及部分数据处理的机器学习算法。

其他文献

大众信仰的嬗变与时代重建

大众信仰是一定时期社会大众在特定的社会生活条件下所反映出来的带倾向性的价值追求和精神状态,当前大众信仰的嬗变呈现出许多新的特征,其产生包括了许多现实社会、政治、经

期刊

大众信仰嬗变重建

黑龙江省边境热电行业盈利能力和盈利质量分析

通过对2014-2016年黑龙江边境热电行业销售毛利率、销售净利率、成本费用利润率及总资产报酬率进行数据统计分析,分别从以营业收入和营业成本为基础、以资产为基础以及以权益

期刊

黑龙江省边境热点行业盈利能力盈利质量分析盈利结构

职务犯罪初查言词证据证据能力问题研究

通过初查对案件线索进行甄别以判断案件是够达到立案标准,已经成为检察机关侦办职务犯罪案件的必经程序。一方面,通过初查能够甄别和过滤不实线索,提高检察机关侦办职务犯罪

学位

职务犯罪初查言词证据证据能力

中药的不良反应浅析

选取我院2007年～2010年中药不良反应报告，按不良反应类型、药物种类、临床表现等进行分析，探索产生不良反应原因，探讨改进的方法，达到安全用药的用药。

期刊

中药注射剂不良反应产生原因改进技术

服务人民与中国共产党的执政兴国

“以服务人民为荣，以背离人民为耻”既是社会主义道德的核心，也是社会主义荣辱观的核心，更是中国共产党立党、执政、兴国之根本。“服务人民”，是中国共产党宗旨的具体体现，是中国

期刊

服务人民中国共产党执政兴国

技校班主任工作之我见

随着我国产业结构的不断调整,职业技术教育事业得到了迅猛发展。家长的目光纷纷投向各类技术院校,越来越多的学生迈进了技校的大门。他们中大部分来自偏远的山区农村，初中刚刚毕业，在学校成绩较差，对学习没有足够的信心；有的认为自己很失败，将来不会有什么出息；还有的学生从小娇生惯养，生活懒散、自私、依赖性强，自我意识较重，缺乏健全的人格。这诸多问题不仅影响他们的成长、进步，也给学校管理带来了很大的难度。特别是

期刊

班主任工作技校产业结构教育事业职业技术技术院校家长学生

企业级分布式数据集成平台的设计与实现

其他学术论文