一种基于后缀树的时态XML索引研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:hbliuzy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
可扩展标识语言XML(Extensible Markup Language)由于具有简单、可扩展、互操作性强、开放性强等特点,正迅速成为一种与平台无关的数据交换的标准和传输格式。目前Web应用的支撑技术大多局限于静态和快照式,但XML文档本身的结构和内容随着时间的流逝不断变化,为了使XML文档能记录一系列修改痕迹、能够表达与时间相关的数据、跟踪历史信息和恢复文档在任意历史时刻的状态,XML文档引入了“时态信息”,称之为时态XML(Temporal XML)。时态XML的出现是Web应用和数据库技术发展的必然产物,在这样的应用背景下,如何在XML文档中表达时间相关的数据,跟踪历史信息和恢复文档在任意时刻的状态的研究受到越来越多的关注,但目前在时态XML索引方面所做的工作大都无法适用于大的时态XML文档,一些索引方法的空间代价较高且查询效率不高。为了解决当前流行的时态XML索引模型空间代价高、查询大时态XML文档效率低的问题,本文提出了基于后缀树的索引模型——TXSIM,该模型分为三部分:后缀索引树、节点编码表、聚合节点链,主要思想是:首先对时态XML文档节点进行编码,存储在节点编码表中,同时把时态XML文档转化成等价的OEM树;再根据OEM树生成具有聚合节点的后缀索引树,并生成聚合节点链。后缀索引树用于时态路径的查询,聚合节点链用于时态值的查询。经实验验证,TXSIM索引模型具有较高的索引空间比,对复杂结构的时态XML文档具有较高的查询效率,并且维护代价低。本文首先介绍了XML及TXML模型、时态数据库、后缀树(Suffix Tree)及半结构化数据模型(OEM),然后分析当前流行的几种索引方案并比较它们的优缺点;分析当前流行的编码方案并提出了基于素数和序列的编码方法,这种编码方法有空间占用少、维护效率高的特点;接着提出基于后缀树的时态XML索引模型——XSIM;最后,本文给出了TXSIM模型的更新、修改、删除的算法,并用实验证明该索引模型的有效性和可行性。
其他文献
随着互联网的蓬勃发展,网络上每天都会产生海量的数据,仅门户网站的新闻信息更新量就非常可观。如何从这些信息中提取中关注度最大的话题,一直是一个值得研究的课题,话题检测
无线传感器网络覆盖问题包括连通和覆盖两个方面。连通是指在无线传感器网络中任意两个节点间都能够直接或间接的通信,这是节点自组织成多跳网络的一个充分条件。覆盖是指通
随着信息技术的发展,信息数据不仅在量上与日倍增,在存储方式上也越来越形式多样。原有的信息系统在面对异构数据源的访问和集成问题时越来越无计可施。为了充分、有效地利用
搜索引擎为用户进行信息检索提供了很大的便利,但是研究表明,搜索引擎的资源覆盖率还是不能满足需求,而且在准确率方面也有待提高。元搜索引擎集成了多个独立的搜索引擎,它调
随着网络技术的快速发展和智能手机、移动终端的广泛普及,基于位置的服务(LBS,Location Based Services)已经融入人们的生活,正在改变人们旧有的行动模式。人们在享受位置服
云计算是一种新形成的网络技术,它分别经过了网格计算、分布式计算以及并行计算三个阶段。云计算通过和现在的互联网技术相互联合形成了一种新型的商业服务模式,并且其广泛的
随着处理器制造工艺的不断进步以及实际应用需要,多核结构已经成为当前高性能微处理器的发展趋势。然而,与此同时也带来了一些在单处理器结构中没有出现过的问题,在多核处理
随着以计算机与互联网为代表的信息采集、存储和处理技术的飞速发展和广泛应用,现代社会的信息急剧膨胀,如何更准确、快捷地从海量信息中获取用户真正需要的信息成了一个越来
近年来,随着信息技术的高速发展,图像信息的应用日趋广泛,基于内容的图像检索技术已经成为当前一个研究热点。本文在简要介绍了基于内容的图像检索研究背景意义、国内外现状
无线传感器网络(Wireless Sensor Networks,WSN)是由大量体积小、价格便宜、具有无线通信和监测能力的传感器节点组成的,随着微电子技术、计算机技术和无线通信技术的飞速发