论文部分内容阅读
可扩展标记语言(Extensible Markup Language,XML)具有可扩展性、平台无关性以及简单易于处理等优点,逐渐成为Internet数据表示和交换的标准。随着XML存储机制与查询语言的日益成熟和XML应用的普及,如何更快、更精确地查询XML数据成为日益突出的问题。对XML文件构建索引机制是提高查询速度的有效方法。但是目前已有的XML索引方法还存在很多缺陷:如查询效率不高、动态更新性能差、结点连接代价高昂等。本文试图提出一种有效的XML索引,以改善现有索引方法的效率。
本文深入研究了XML索引技术,分析XML数据结构、查询语言以及编码方法对索引查询效率的影响。在此基础上,提出一种基于Schema的XML结点编码索引方法(XML Node Coding Index,XNCI)。该索引方法可以减少结点的连接操作次数、有效地支持复杂路径查询、并且支持数据动态更新。主要工作体现在以下几个方面:
1.本文在结点编码方法中引入路径编码思想,对Dewey编码进行改进,提出一种支持动态更新的路径前缀编码方法(Path—DeweyCoding,PDC),用于XML文档中分支路径的匹配和连接操作。
2.深入研究已有的XML索引方法,分析并总结结点编码索引的优点,提出一种基于Schema的XML结点编码索引方法——XNCI。该索引利用XML的模式信息来加速查询,对Schema和XML分别编码,并将PDC应用于XML编码中。
3.本文针对XNCI的索引结构,提出一种新的路径划分方法,将复杂查询路径划分为谓词结点和目标路径。利用结构表提高谓词结点的查询效率,从而提高了整个路径查询的效率。
4.为了进一步验证本文提出索引的有效性,设计了这种XML结点编码索引系统,实验证明研究提出的索引具有较好的检索效果。