论文部分内容阅读
Web技术的发展推动了Internet及其应用的发展,尤其是动态网页技术和服务器与客服端的三层服务模式的应用推动了Web以令人惊异的速度发展。同时Web应用开发者开始体验到现有HTML的局限性,因为HTML并不具备大规模Web应用所需的可扩展性、结构化和数据验证等特性,而XML技术的出现则正是为了有效应对上述问题。目前XML已经成为Internet以及电子商务中进行数据表示和数据交换事实上的标准。由于其丰富的表达能力和自描述性、灵活性等特点,XML已被广泛应用于电子商务、数字图书馆、智能Internet检索等领域。然而由于XML数据的半结构化特性以及XML数据所特有的路径表达的查询方式不同于现有的关系数据库查询,使得关系数据库系统对XML数据的管理功能受到极大限制。现在互联网上己经存在大量以文件形式存放的XML数据,这些数据包含了丰富的信息,如何高效准确地完成对XML数据的查询成为当前的一个研究热点。 XML以其数据和表现相分离的特性和强大的数据表达能力,已经成为互联网和数据库之间沟通的桥梁,它的出现使文本的互联网转变为数据的互联网——一个全球范围的分布式数据库。然而,XML不仅仅是互联网和数据库之间的中间媒介,它完全可以做更多的事情。XML最大的优点是它强大的数据表达能力,不仅可以表达关系模型和对象模型的数据,而且还可以表达不规则的,易变的数据,它是典型的半结构化数据。既然XML包含着数据,那么就存在着如何查询,如何管理这些数据的问题,而目前应用最广泛的关系数据库管理系统并不适合管理半结构化数据。这是因为关系模型的二维表结构在表达半结构化数据上存在很大的困难,不但转化算法复杂,而且数据的冗余度很大。作为描述的标记语言,XML能够根据具体应用灵活地表现异构数据源中的各种信息,包括应用程序之间的数据交换、结构化和半结构化文档以及数据库中数据的输出。当前,随着XML应用领域的扩大,越来越多的信息开始采用XML进行存储、交换和表现,传统信息管理技术因为XML文档的出现而面临新的挑战,因此跨越不同数据源的基于XML信息的查询检索能力变得日益重要。 由于XML数据中具有自描述性的模式信息,数据节点的值的类型和大小是很灵活的,不能以固定的形式来处理他们。加上其本身的嵌套结构和模式信息不全的特点,使得其结构非常复杂,对它的查询处理也比较困难。传统的基于树的遍历的方法是通过对树型结构的多次扫描,这在拥有大量数据的XML数据库中效率及低,不能满足复杂的处理要求,而XML查询表达式的计算实际上就是寻找树模式查询到文档树的映射的过程,或称之为树模式查询的匹