论文部分内容阅读
越来越多的企业逐渐视数据仓库为企业数据集成平台,为企业提供单一真实数据视图。作为数据仓库体系结构中最重要组成部分,抽取、转换、加载(Extraction、Transformation、Loading,ETL)集成异构数据源并改进数据质量,利用最有效的方式将增值数据递交给数据仓库终端分析用户。ETL 进化源于系统进化观点,强调在持续增量迭代过程中保持现有系统正常运行情况下,应满足环境的变化需求。性能瓶颈、数据信息可用性和适应模式变化是 ETL 系统进化不可避免关键问题。理解系统是经过收集、分析和抽象获得系统信息的过程,是解决系统进化所遇问题的先决条件。问题便由而此产生,如何获取 ETL 系统信息才能有助于解决 ETL 进化所面临的性能瓶颈、数据信息可用性和适应模式变化问题。元数据是赋予系统内容意义的描述信息,成为理解系统的关键。为了解决上述问题,如何管理和应用元数据支持 ETL 进化便成为本文研究的重点。本论文将与 ETL系统环境相关的元数据称之为 ETL 元数据。本文首先在分析 ETL 元数据基础上,提出 ETL 元数据管理架构作为 ETL 系统的元数据管理和应用解决方案。接着采用 UML建模语言、Powder Designer 建模工具和结构模型所阐述的建模思路设计 ETL 元模型,以捕获 ETL 系统静态和动态方面的信息。论文最后在关系数据库管理系统 SQLSERVER 2000 上,利用对象关系映射模式技术建立了基于 ETL 元模型的元数据库,为用户理解 ETL 系统提供了所需的完整信息。通过 SQL SERVER 2000 自带的查询工具或是其它定制的应用程序,用户凭借性能瓶颈诊断、元数据浏览、数据谱系、数据质量和影响性分析等元数据应用从元数据库获取信息,帮助其解决性能瓶颈诊断、适应模式变化和数据信息可用性等问题,以此实现对 ETL 进化的支持。