论文部分内容阅读
在电子商务活动过程中,企业与企业之间需要交换各种数据,这些数据分别由不同的应用产生,具有不同的数据格式和商业意义。如何在企业之间传输和处理这些数据,实现商务流程的自动化,是实施企业电子商务需要解决的一个关键问题。可扩展标记语言XML以其结构化、可扩展性、灵活性和可验证性成为了数据描述和传输的基本方法,因此,将各种数据转换为XML文档是实施企业电子商务的一个重要环节。基于XML的数据交换系统XDocHub提供一个基于XML的文档接收、转换、转发和管理的集成框架,屏蔽企业与企业之间的通信方式和数据格式的差异,为广泛实现企业电子商务提供支持。 由于XML文档属于半结构化的数据,而企业中的商业数据往往是结构化或非结构化的。因此,XML文档与其他格式数据转换的关键问题是如何建立两者在结构上的映射关系。本文研究了现有的基于XML文档的数据转换算法和模型,提出了一种基于元素树的数据转换方法。该方法使用DTD元素树来刻画XML文档的结构,并在此基础上建立XML文档与其他格式数据的结构映射关系,从而完成数据转换。 基于元素树方法,我们实现了一个XML文档与关系数据库数据相互转换的系统XWrapper。该系统为用户指定的DTD自动生成其对应的元素树,然后在元素树的基础上,根据用户定义的或系统自动生成的元素与数据库字段的映射关系,实现XML文档与关系型数据的相互转换。XWrapper系统是XDocHub系统的一个重要的子系统。 本文还对XML文档与文本数据、OCR数据转换等问题进行了探讨,提出解块这些问题的数据转换模型。