论文部分内容阅读
随着数据仓库的广泛建立,数据仓库系统的核心—用于数据仓库数据加载和刷新维护的ETL工具越来越重要.市场上存在大量的ETL工具,这些ETL工具采用不同的实现技术,对应的ETL过程定义描述都基于数据源的数据模型和执行ETL过程使用的实现技术.使用不同的ETL工具需要熟悉不同的数据模型和ETL过程实现中使用的相关语言.针对当前ETL工具中ETL设计的不足,我们提出了ETL过程的逻辑描述方法.首先作用统一数据模型描述具体的数据源对应的数据存储模型,屏蔽不同数据模型中描述的差异,让用户在统一数据模型上定义ETL过程;其次使用ETL过程逻辑描述从逻辑上描述整个ETL过程,屏蔽ETL过程中具体实现的差异,使用各种逻辑规则定义ETL过程中的数据转换和数据清理.ETL过程的逻辑描述可以让ETL过程设计人员专注于根据模式的语义进行的数据转换映射和清理定义,不用考虑执行的实现模式和数据模型之间的差异,减少定义的复杂程度,同时为自动定义ETL过程提供前提.该文结合数据仓库系统中的ETL工具研究和实现项目,研究如何从逻辑上对ETL过程进行描述,如何图形化显示ETL过程,以及如何根据逻辑描述生成可以执行的ETL程序或者相关的查询语言.通过研究我们为我们自制的ETL工具—SEU_ETL系统设计了统一数据模型、ETL过程逻辑描述规划,ETL过程的图形化显示机制.为了使ETL逻辑描述的实用化我们定义了一个数据转换脚本描述规范.最后通过对ETL过程物理执行机制和相关的优化策略实现了SEU_ETL系统中的ETL过程的执行.