分布式环境的ETL工具XTL的研究与实现

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:zhouxiaoqing1003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据仓库的构建过程中,工作量最繁重、问题最多的就是业务系统中的异构数据到数据仓库的迁移过程。ETL(抽取、转换和加载,Extraction-Transformation-Load)工具的任务是负责从不同种类和形式的操作型业务系统中抽取数据,进行必要的转换和清洗,将其加载到目标数据仓库。 本文针对数据仓库化建设过程的需求,主要对分布式环境的ETL过程的模型以及ETL过程中的数据转换和清洗服务进行了研究,包括: 1)根据ETL过程流程化的特点,一次ETL过程往往是对若干数据集合进行多个相关转换或清洗的有序组合,本文研究并设计了基于工作流的ETL模型,定义了一个包括流程、活动、转移和操作四个基本元素的ETL模型;并实现一个轻量级的工作流引擎,作为灵活设计和维护ETL过程的基础支撑。 2)由于ETL过程要处理的数据往往分布在不同结点的业务系统中,如果将这些数据进行集中式的处理,则对负责ETL过程处理的机器性能要求较高,同时原始数据的传输也要求较大的带宽。本文研究了分布环境中的ETL任务调度和协调框架,即由启动ETL过程执行的结点充当主控引擎,负责对ETL任务进行划分,并将这些任务分片分发到相关的结点;相应的结点接收到任务分片后,启动本地引擎完成ETL处理,通知主控引擎并返回输出结果。 3)研究设计了一系列的数据质量控制规则,包括模式级别的数据转换规则、实例级别的数据清洗规则,另外还提供支持数据仓库维护工作的增量ETL过程。 4)设计一套元数据模型来描述ETL过程,元数据记录了包括ETL过程的流程控制信息以及记录整个ETL过程中的抽取、加载策略和转换、清洗规则两个部分的信息。 在以上研究之上设计并实现了ETL原型系统"XTL",在原型系统上进行的实验表明:文中设计的基于工作流的ETL模型能正确的描述ETL过程,分布式ETL任务调度和协调框架能有效提高分布式ETL过程的性能,数据质量控制模块能有效帮助用户进行数据的转换和清洗工作。原型中ETL任务在分布式环境中的调度和协调具有一定的新颖性。
其他文献
随着信息技术与互联网应用的迅速发展。政府、企业、高校等机构的信息系统的建设面临着巨大的挑战,主要体现在两个方面:一是面对由于历史原因产生的各种“信息孤岛”如何实现
随着互联网技术的迅速发展,形式多样的数字化产品正把人们的生活融入到互联网中;目前,下一代互联网的脚步越来越近,数字家庭的概念也逐步走入人们的视线。在未来的家庭中,通过
随着信息技术在管理上越来越深入而广泛的应用,管理信息系统的实施在技术上已逐步成熟。管理信息系统是一个不断发展的新型学科,任何一个单位要生存要发展,要高效率地把内部活动
近几年随着Internet的迅速发展,P2P网络应用变得越来越流行,其中最重要的一种应用就是Bit Torrent。Bit Torrent文件共享的广泛应用给盗版者带来了很大的便利,使盗版传输变得