论文部分内容阅读
随着网络的发展,对现存系统中数据共享的需求不断增加,因此迫切需要一种途径来集成不同数据源的数据,并提供给用户一个统一的界面来访问所有数据源。然而分布在异构环境中的各种数据源有着不同的数据格式、存储方式、访问控制策略、数据模型、操纵语言、数据语义。同时,由于这些数据源的自治性,其中数据的可共享性、共享方式、共享内容等也可能随时发生变化。因此解决这类问题已有的联邦数据库和数据仓库等紧耦合方案,已不能满足当今数据集成的需要,为此我们开发了一个支持这类需求的异构数据集成平台,可以较好的完成分布、异构、自治环境下的数据集成工作。本文的课题来源于大连市交通局的实际项目——大连市交通局数据中心建设。该项目拟利用大连党政专网,将交通局下属九个处室中的现有数据库管理系统予以整合,给用户提供了一个统一的数据查询界面,实现数据集成、数据共享和数据的实时查询。本文首先对数据集成的理论基础、主要解决方案及实现方法作了综述,接着通过分析现有数据集成平台中存在的问题,结合大连交通局交通数据中心的建设,给出了一种基于虚拟数据中心的数据集成平台体系结构及其实现方法,该平台以Mediator/Wrapper为框架,以Web服务封装业务逻辑,以虚拟数据中心为核心,以XML为公共数据集成模式,使用Hibernate与Castor结合,构建了关系数据库与XML的转换模型,解决了数据集成平台建设中的系统异构、语法异构及多数据源到XML文档模型之间的映射等问题。查询处理和查询优化是分布异构数据集成平台的关键问题,它直接关系到数据平台的正确性和可用性。本文针对交通数据库的特点,给出了查询分解的基本原则和基于查询任务树的查询分解算法。本文基于局部数据源代价和通信代价,给出了基于代价的查询优化算法。由于本文采用适合网络传输的XML作为公共数据模式,因此使用ApacheAxis进行数据传输,给出了数据传输的策略和方法,整个传输流程可以在不限定平台、语言、网络协议的基础上灵活进行。