分布式环境的ETL工具XTL的研究与实现

来源 :华南理工大学 | 被引量 : 0次 | 上传用户：zhouxiaoqing1003

【摘要】

：

在数据仓库的构建过程中,工作量最繁重、问题最多的就是业务系统中的异构数据到数据仓库的迁移过程。ETL(抽取、转换和加载,Extraction-Transformation-Load)工具的任务是负

【作者】

：

林昆

【机构】

：

华南理工大学

【出处】

：

华南理工大学

【发表日期】

：

2008年期

【关键词】

：

分布式环境分布式环境数据仓库数据仓库迁移过程迁移过程质量控制质量控制

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在数据仓库的构建过程中,工作量最繁重、问题最多的就是业务系统中的异构数据到数据仓库的迁移过程。ETL(抽取、转换和加载,Extraction-Transformation-Load)工具的任务是负责从不同种类和形式的操作型业务系统中抽取数据,进行必要的转换和清洗,将其加载到目标数据仓库。本文针对数据仓库化建设过程的需求,主要对分布式环境的ETL过程的模型以及ETL过程中的数据转换和清洗服务进行了研究,包括： 1)根据ETL过程流程化的特点,一次ETL过程往往是对若干数据集合进行多个相关转换或清洗的有序组合,本文研究并设计了基于工作流的ETL模型,定义了一个包括流程、活动、转移和操作四个基本元素的ETL模型；并实现一个轻量级的工作流引擎,作为灵活设计和维护ETL过程的基础支撑。 2)由于ETL过程要处理的数据往往分布在不同结点的业务系统中,如果将这些数据进行集中式的处理,则对负责ETL过程处理的机器性能要求较高,同时原始数据的传输也要求较大的带宽。本文研究了分布环境中的ETL任务调度和协调框架,即由启动ETL过程执行的结点充当主控引擎,负责对ETL任务进行划分,并将这些任务分片分发到相关的结点；相应的结点接收到任务分片后,启动本地引擎完成ETL处理,通知主控引擎并返回输出结果。 3)研究设计了一系列的数据质量控制规则,包括模式级别的数据转换规则、实例级别的数据清洗规则,另外还提供支持数据仓库维护工作的增量ETL过程。 4)设计一套元数据模型来描述ETL过程,元数据记录了包括ETL过程的流程控制信息以及记录整个ETL过程中的抽取、加载策略和转换、清洗规则两个部分的信息。在以上研究之上设计并实现了ETL原型系统"XTL",在原型系统上进行的实验表明：文中设计的基于工作流的ETL模型能正确的描述ETL过程,分布式ETL任务调度和协调框架能有效提高分布式ETL过程的性能,数据质量控制模块能有效帮助用户进行数据的转换和清洗工作。原型中ETL任务在分布式环境中的调度和协调具有一定的新颖性。

其他文献

面向服务架构及工作流技术的研究

随着信息技术与互联网应用的迅速发展。政府、企业、高校等机构的信息系统的建设面临着巨大的挑战,主要体现在两个方面:一是面对由于历史原因产生的各种“信息孤岛”如何实现

学位

面向服务架构工作流技术信息系统业务流程资源层

基于J2ME的通用遥控器的研究与实现

随着互联网技术的迅速发展,形式多样的数字化产品正把人们的生活融入到互联网中；目前,下一代互联网的脚步越来越近,数字家庭的概念也逐步走入人们的视线。在未来的家庭中,通过

学位

通用遥控器通用遥控器J2MEJ2ME应用软件系统应用软件系统

高职学生信息管理系统

随着信息技术在管理上越来越深入而广泛的应用，管理信息系统的实施在技术上已逐步成熟。管理信息系统是一个不断发展的新型学科，任何一个单位要生存要发展，要高效率地把内部活动

学位

高职院校学生信息管理逻辑结构数据库概念软件设计

BITTORRENT信息内容安全管理技术研究

近几年随着Internet的迅速发展,P2P网络应用变得越来越流行,其中最重要的一种应用就是Bit Torrent。Bit Torrent文件共享的广泛应用给盗版者带来了很大的便利,使盗版传输变得

学位

BitTorrent索引混淆数据混淆数据混淆调度

分布式环境的ETL工具XTL的研究与实现

其他学术论文