论文部分内容阅读
XML的全称是Extensible Markup Language(可扩展标识语言)由于具有简单、可扩展、互操作性强,开放性强等特点,正迅速成为一种与技术无关的数据交换的标准和传输格式,并逐渐成为当前网络应用中事实的数据表达、交换的标准。鉴于XML在诸多领域有广泛的应用前景,许多关于XML的研究都是前沿和热点课题。例如在数据库领域,从某种意义上说XML作为数据库使用可以自然地表示嵌套型数据,比关系型数据库具有更强的表达能力,但是对XML数据的查询还有很多不完善的地方,其查询准确性与查询速度都需进一步的提高。XML数据管理系统主要解决XML数据的存储管理、查询处理、访问控制、数据更新等。XML查询处理与优化包括XML查询代数、查询处理、查询优化等。XML数据查询是XML数据管理一个非常重要的组成部分,是当前学术界研究的一个热点方向。XML查询根据其查询模式的不同可以分为两类:XML Query查询方式和XML IR查询方式。而XML IR方式又可以细分为三类:XML IR/keyword方式、XML IR/query方式和XML IR/fragment方式。本文主要研究XML数据集成查询过程中碰到的一些问题,以及所采取的相应解决方案。其中主要包括三部分的内容:第一,由于XPath是当前流行的XML数据查询语言XQuery和XSLT的基础,我们针对XPath语言中的复杂路径表达式,设计了一种路径表达式的最优化方法,用以提高在对XML进行查询时的执行效率;第二,基于当前比较流行的一种查询代数OrientXA,基于代数表达等价原则,设计了一系列的等价转化方法,简化了XML查询路径表达式的代数表示,优化了XML数据的查询效率;第三,针对多XML数据源的集成查询,由于查询过程往往涉及到对多个XML片段中相似重复信息的处理,而我们有时候需要对多XML片段中的共同信息进行提取,由此,本文提出一种XML有向标记树模型,并在此模型上设计了一种相似匹配算法来对共同信息进行挖掘。实验显示,该算法具有很高的可行性及使用价值。