论文部分内容阅读
随着Internet时代的到来,网络在人们的生活中发挥着越来越重要的作用,在众多的领域中有着广阔的应用前景。作为Web所带来的新技术发展中的代表,XML成为了学术界和工业界所关注的焦点。由于XML数据具有不同于传统数据形式的特点,以及基于Web的应用环境特点,使得传统的数据库技术不能或不能有效地发挥作用,因此需要针对其特点研究新的处理方法。查询是数据处理中最重要的问题之一,对XML数据也是如此。为了解决XML路径查询处理中的关键技术问题,为大规模的XML查询应用提出切实可行的解决方案,本文结合Orient-X系统提出了路径查询的处理框架,对三个方面的关键技术进行了研究,提出了自己的方法。本文针对结构连接操作的高效实现问题,提出了基于划分的结构连接算法。作为XML查询处理的核心操作,结构连接操作的高效实现是提高查询处理效率的关键。在XML数据区域编码的基础上,我们提出了一种基于划分的结构连接算法。与目前已有的算法不同,该算法不要求数据有序或索引的存在等前提条件。它基于任务分解的思想,根据编码的覆盖区间对元素节点进行划分,在划分所得到的对应子集合之间分别进行结构连接。我们提出了划分子集合的原则,给出了具体的结构连接算法,并在各种数据集上进行了广泛的实验。实验结果显示该算法具有良好的性能,而且在各种数据分布情况下具有稳定的表现,以及良好的可扩展性。在路径索引方面,本文提出了一种基于模式的路径索引SUPEX——Schema gUided Path indEx for XML。该索引利用了在实际应用中经常存在的XML数据的模式信息——DTD,从DTD出发构建索引结构,总结了符合DTD的XML数据可能出现的路径结构。我们对该索引的整体结构,索引的构建过程,以及索引支持的查询方式进行了详细阐述。通过结合XML数据的编码,该索引可以支持多种查询方式,包括绝对路径查询,父子关系和祖先-后代关系的基本结构关系,相对路径查询等,从而能够有效地支持路径表达式的计算。XML数据编码的引入使得查询结果可以进一步用于路径表达式的计算。在路径查询的计算方面,本文提出了以目标节点为导向的路径查询分解计算框架。基于基本操作和索引的支持,我们定义了对路径查询树的最小简单路径分解。从查询分解状态向查询计划转化的过程遵循以目标节点为导向的原则,尽量保证每一个连接的结果是在下一步将要使用的,避免中间结果的传递。针对这个查询分解计算框架,我们提出了一些扩展的操作符,包括选择性结构连接操作和扩展的索引查询操作,并给出了具体的实现方法。结合实际的查询计算需求,这些扩展的操作符可以直接在查询中应用。本文的工作是在Native XML数据管理原型系统Orient-X的基础上进行的,所提出的许多技术在系统中得到了应用。大量的实验都在原型系统的基础上进行。