XML关键字查询中最紧致片段问题的研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:dragoonzj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
XML(eXtensible Markup Language)在Web服务、电子商务、数字图书馆等诸多网络相关应用领域已经成为描述数据的事实上的标准。为了方便用户从海量的XML数据中提取他们所需要的信息,许多XML数据查询算法应运而生,使得XML数据查询成为XML数据管理领域的一个热点。本文将这些XML数据查询算法按照查询模式描述的不同分为两类,即XML结构查询和XML关键字查询。前者多采用了正则表达式的描述方法,偏向于传统的结构化的查询方式,能够清楚的表述用户的查询意图;后者融入了信息检索领域常用的查询思想和方法,允许用户仅仅输入关键字就能够进行查询。XML结构查询算法根据精确的查询条件,能够输出理想的查询结果。然而,该算法对进行查询的用户也提出了更高的要求,即不仅要熟悉结构查询算法所采用的查询语言,而且还要了解待查询的XML文档树结构。以上要求对于绝大多数用户而言是不切实际的,所以从用户的角度出发,XML关键字查询是一种能够被广泛使用的查询方法。XML关键字查询方式中最关键的问题是如何求解包含所有关键字的最紧致片段,即SLCA(Smallest Lowest Common Ancestors)问题。目前已有许多求解算法,包括Stack、ILE、SE、LISA和LISAⅡ等。ILE和SE在与Stack的实验对比中表现得效率更高,适合需要频繁I/O操作的海量XML查询,他们仅需要顺序读取XML数据一遍;相比ILE和SE,LISA和LISAⅡ在轻量级XML查询中,无论是在理论分析上还是试验对比中都表现出了更好的性能。然而,LISA不仅需要频繁扫描节点,而且需要引入集合交操作,耗费了大量CPU周期。LISAⅡ虽然在避免不必要扫描方面改进了LISA算法,但却使用了自己独有的编码,不仅引入了编码映射,而且也使得该算法的通用性大大削弱。这两种算法即便作为一种仅在内存中执行的算法,以上缺点也影响了查询速度。为此,本文提出一种轻量级的、使用XML关键字查询通用的Dewey编码的新算法,NDT(N-Divided Travel Algorithm),即求解最紧致片段问题的N分遍历算法。该算法不仅消除了集合交操作,而且仅仅扫描所有节点至多一遍。NDT无论在理论分析上还是试验对比中,都表现出了较好的性能,是一种可行的最紧致片段求解算法。作为一种新的XML关键字查询算法,NDT具有查询简便快捷、普通用户使用门槛较低、用户友好等的特点,但是也会存在查准率相对于XML结构查询算法较低的XML关键字查询的先天缺陷。
其他文献
随着信息技术在企业信息系统中的广泛使用,传统的封闭式系统暴露出很多难以克服的缺点,系统功能单一、结构死板、难以部署和更新的局限性阻碍了企业信息化的深入发展。为克服
在髋关节受力分析方面,以往医生大多根据患者提供的信息在Matlab等类似仿真软件上进行受力分析,不能提供形象结果。医生真正需要的是在患者真实环境下的术前规划,由此来确定
在计算机广泛普及和Internet迅速发展的今天,数字产品(如数字图像、文档、视频、音频等)已经成为人们主要的信息交流媒介,然而伴随而来的却是非法的拷贝、篡改,以及日益严重的版
随着互联网的迅猛发展,大规模网络入侵正在以前所未有的态势威胁着整个网络安全。在所有的网络攻击中,分布式拒绝服务(DDoS)攻击由于其潜在的破坏性强,而且难于防止和追查,成
本论文设计了一个基于SQL的计算机实验室管理系统。作者工作在一所刚刚由中职院校升级的高等职业院校,从事信息技术系实验室管理工作,涉及实验室管理、物品采购、财产管理、实
自90年代以来,为了适应计算在科学研究和实际应用中求解大规模问题和复杂系统的要求,高性能并行计算得以空前飞速发展。但随着超级计算机规模的不断扩大,并行算法的可扩展性
不确定性问题的智能化建模与推理是人工智能的重大前沿课题。模糊性是不确定性问题的主要形式之一。在构建模糊推理系统时,先验知识(已知规则)具有不确定性,其小幅摄动可能对
随着信息技术的发展与完善,越来越多的移动智能设备走入了人们的视野,相关服务平台逐步搭建。人们穿戴的智能设备有着丰富的互联网应用资源。他们不但在人们的生活上提供了诸
在三维地理信息系统(GIS)中,三维数据模型与数据结构是研究的核心。从数据描述格式的角度划分,三维空间数据模型可以归纳为栅格数据(Raster)、矢量数据(Vector)两种。由于栅
人脸识别是模式识别技术在视频图像中的具体应用,通常包括人脸的检测和定位、特征提取、分类识别三个主要方面的内容。由于具有安全性、可靠性和有效性,人脸识别近来成为视频图