论文部分内容阅读
随着网络技术的发展,可扩展标记语言XML得到了极大的进步。与超文本标记语言HTML不同,XML实现了文档数据内容与显示的分离,具有很强的自我描述能力、可扩展性好等特点,从而有利于信息共享和查询,已经被广泛的应用在各个方面,包括定义行业数据标准、数据交换和数据集成。它正在成为数据表达和交换的新标准。 本文首先针对XML语言分析了它的数据和文档组织的模式,因为XML的模式语言有很多种,并且各自有各自的特点和优势,所以本文通过比较的方法研究了DTD、W3C Schema和Relax NG等几个主要的XML模式语言。然后本文探讨了XML中操作数据的几个关键技术,其中包括数据岛技术(DSO)和两个主要的接口技术——文档对象模型(DOM)和XML简单程序接口(SAX)。在XML与传统数据库结合使用的系统中,这几种技术发挥着重要作用,数据查询往往是通过它们来实现的。本文重点讨论了XML的数据模型并提出两种查询算法。从数据库的角度看,XML文档是一种典型的半结构化数据:数据往往是不规整的,结构是不稳定的;它的模式信息和数据混在一起,因此是自描述的。XML文档的结构可以看成为树;树节点由标记定义,而叶节点是具体的元素数据。所以根据XML文档的结构,提出了路径查询算法和树查询算法。同时本文还分析研究了XML的几种查询语言,对它们的特点和性能进行了分析和研究,并进行了一定程度上的相互比较。最后,本文在分析XML技术的基础上,针对大量数据信息以传统数据库形式存储的现状,采用XML结合Java语言以及流行的数据库系统作为解决方案,设计并实现了一个包括数据查询功能在内的应用实例——Web文档处理系统。