论文部分内容阅读
XML由于其所具有的自描述性、灵活的数据结构以及丰富的数据表示能力等特点,逐渐成为Web上数据表示、存储和交换的事实上的标准。越来越多的XML数据成为信息共享的载体。大量XML数据的涌现促进了XML数据管理技术的快速发展,Twig模式匹配算法作为XML文档查询处理模块的核心内容,成为众多学者研究的热点问题。在XML结构查询中,可以通过编码来确定节点间的结构关系,避免了对XML文档树的重复扫描,提高了查询效率。早期的二元结构连接算法会产生许多无用的中间结果,降低了性能,针对这一关键问题,论文在分析经典算法PathStack算法和TwigStack算法的基础上展开了深入研究。首先,针对传统XML文档小枝模式查询算法中,与模式树中标签名相同的节点均入缓存,易造成很大的空间浪费问题,提出了ListFWM模式匹配算法。算法在对XML文档编码的基础上,依据节点间的结构关系过滤标签列表中无用的中间节点,且不用归并,通过实验比较,验证了ListFWM算法比TwigStack算法具有更高的查询性能。其次,针对传统算法需要对整个文档节点进行编码,从而导致查询效率大大降低这一缺陷,论文提出了TwigStack算法的核心内容——PathStack算法的改进算法:LocalPathStack算法。以此为基础,提出了一种适用于XML流数据的新的算法: PathList算法,并根据所处理的XML流数据的特点,通过查询根过滤方法优化了这一算法。最后,通过对不同文件大小以及不同查询路径长度的比较实验,验证了PathList及其优化算法与LocalPathStack算法及其优化算法相比,在大大降低了空间复杂度的基础上,具有稍优的时间复杂度,最后提出一种XML数据流的Twig模式匹配算法——StreamTwigList算法,同时给出了论文所研究算法在弹药设计软件中的一个应用案例。