论文部分内容阅读
本文以异构数据源的集成为研究背景,简要介绍了目前异构数据集成所面临的问题及相应的解决方案;提出了基于CORBA技术的异构数据集成系统,详细分析了异构数据集成系统的整体功能要求;重点探讨了集成系统中采用的公共数据模型和数据集成的层次结构;设计实现了异构数据集成系统的功能结构,并应用到试题库系统中。 集成系统采用三层C/S体系结构,中间层由包装器-仲裁机构组成,完成集成系统的主要功能。系统通过CORBA封装技术结合公共数据模型对局部异构数据源进行包装,包装后的CORBA对象对外提供统一的访问接口和标准的数据交换格式,对象间的数据通信是在ORB软总线上完成的。在客户端,用户看到的只是一个全局公共模型和全局的数据操作;在集成系统内部,实际的用户数据操作被集成系统分解为针对各数据源的子操作,子操作结果再由集成系统汇总返回给用户。另外,为了降低集成系统的复杂度,解决集成过程中的权限管理问题,引入两类角色(各异构数据源管理人员和系统负责集成人员)来辅助集成系统完成功能定义和业务逻辑的实现。各异构数据源管理人员完成所在异构数据源的注册和共享内容的定义;系统负责集成人员则只负责对已共享的异构数据源进行整理合并。 在公共数据模型方面,主要给出了OIM数据模型的定义,并以关系数据表、XML文档和Word文档为例说明了局部数据模型与OIM公共数据模型之间的转换规则。对于Word文档的转换是针对具体的试题库系统中的试卷展开的。 在系统的应用方面,介绍了基于CORBA的异构数据集成技术在试题库系统中的实现,重点介绍了Word试卷存档模块中的数据集成。根据Word文档与文本文件的转换关系,采用添加标记的方法,从Word文档存储的半结构化数据中抽取出所需的信息,存放到结构化的数据库中,在此基础上再利用集成系统中关系数据模型和OIM公共数据模型的转换规则进行转换。实现了Word文档到关系数据库的转换,也证明了我们提出的转换方法的有效性。