XML数据的编码方案与结构连接算法研究

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:buyezhicheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
XML(eXtensible Markup Language)已经成为Web上数据表达和数据交换的新标准。XML文档的大量出现,产生了XML数据管理的需求。XML所描述的Web数据所具有的半结构化特性对传统的数据管理方式提出了挑战:传统的基于关系数据库的信息查找及信息检索方式不能为具有树状层次结构的XML数据提供令人满意的查询效果。由此基于XML的信息查询便成为一个研究重点。为了有效支持XML查询,特别是结构查询,目前已经提出了XML数据的各种编码方案。对于XML结构查询,可以通过编码将XML结构查询的计算转化为结构连接的计算,因此有效的支持结构连接对XML查询的有效实现是解决问题的关键。本文主要对基于区间编码的小枝模式结构连接算法进行了研究和分析。1.在对现已提出的基于前序、后序遍历值的XML编码方法及几种扩展方法进行分析比较的基础上,提出了一种扩展的Zhang编码方法Ext-Zhang,该编码方案的特点是可以在常数复杂度内判定结点间的祖先/后代或双亲/孩子关系,易判定一个给定结点的后代结点或孩子结点的数目,易判定一个给定结点是否为叶子结点。同Dietz编码方案相比编码过程简单,只需按前序遍历一次XML文档树即可得到其编码;同Li-Moon编码方案相比,该编码方案要节约存储空间;同Zhang编码方案相比,虽然该编码方案扩展于Zhang编码方案,但对于XML文档树的任意结点,Ext-Zhang编码可以根据其编码得出该结点的后裔结点个数,且若将结点信息存入关系数据库中,其编码中pre值是连续的,这在关系数据库中将大大提高查询效率。2.研究了基于Ext-Zhang编码方案在关系数据库中的存储策略及数据管理,采用结点模型映射方法,用一个关系表xml(docid,pre,bigPre,level,value)即可存储多个XML文档。XML文档树中的每个结点分别在表中对应一个元组,以表xml的主键是(docid,pre)或(docid,bigPre)来相互区别。从而在基于关系数据库的XML数据的查询过程中,可以高效的找到XML文档树中的任意结点。3.在Ext-Zhang编码方案的基础上,提出了一种基于该编码方案的小枝模式结构连接算法StruContact,该算法不必考虑模式查询中是否包含分支,并利用编码的一些特性省去了对结点的重复扫描。实验数据表明,基于Ext-Zhang编码的小枝模式结构连接算法是正确的,且在效率上较PathStack和TwigStack算法有很大提高。
其他文献
目前关于数据挖掘的研究很多,主要是对挖掘算法的研究,而对挖掘过程管理的研究则相对较少,而数据挖掘过程又是需要多次反复的多阶段处理过程,为了有效地管理和控制数据挖掘各个阶
伴随着计算机、网络通信等技术的迅猛发展,数字媒体技术也取得了长足进步,同时给人们的生活方式和经济发展模式带来了重大变革。几乎每时每刻都有大量的数字媒体产品通过网络进
手语是一种动作语言,通过一连串手势的运动并附以适当的面部表情或身体躯干姿势来表达语意,是聋哑人的第一自然语言。目前中国标准手语的推广程度不高,内部仍存在着地域差异
随着网络数据、生产数据等持续增加,形成大量的数据,这些数据给存储和查询带来严峻的挑战。但可凭借数据划分方法将海量数据分块分布存储在多个机器中,这样既能能解决单机器的存
无线网络能被用于经济、军事、娱乐以及健康相关的许多应用领域,这些应用常常包括敏感信息的监测,例如战场上敌人的移动或者建筑物里人们的位置。因此,在无线网络里,安全是非常重
随着移动互联网技术的发展与移动终端的普及,社会生活的信息化日益深入,人们越来越依赖于手机、平板电脑等智能移动设备。笔记类软件是传统纸笔记录行为在科技进步的环境下衍生
Web信息量的急剧猛增以及广大互联网搜索用户信息检索需求的不断提升,使得搜索引擎技术由原来的面向全体互联网用户,提供公用信息服务的通用搜索引擎发展到面向特定领域,为用
近些年来,由于互联网技术的迅猛发展以及通信网络带宽和处理能力的大幅提高,使得网络能够提供形式多样的多媒体业务,同时也使得支持“点对多点”或“多点对多点”的组播通信方式
有向标签图作为重要的数据表示模型,广泛应用于社交网络、生物信息学、语义 web等信息技术相关的研究领域。目前,随着上述领域数据规模的快速增长,如何高效管理较大规模的有向标
近年来,以互联网为传播介质,以数字化多媒体内容为主体的数字媒体产业在全球范围内快速崛起,并逐渐改变了人们娱乐休闲的方式。本文以数字音像内容集成分发平台为依托,构建一