【摘 要】
:
面对互联网上海量的信息,个性化的定制服务逐渐成为人们获取信息的一个重要手段。其核心技术是如何对大量的用XML格式表示的数据进行快速而有效地处理。针对XML数据流,普遍采
论文部分内容阅读
面对互联网上海量的信息,个性化的定制服务逐渐成为人们获取信息的一个重要手段。其核心技术是如何对大量的用XML格式表示的数据进行快速而有效地处理。针对XML数据流,普遍采用的是XPath表达式进行查询。因此,如何在XML数据流上对大量的XPath表示的查询进行快速处理是XML文档过滤的核心问题。对于基于小枝模式的XML文档过滤的研究,目前主要分为两个方向。一个是采用分解的思想,核心是如何高效地对节点间位置关系进行匹配。该类算法有一个通病,即在某些情况下需要多次重复扫描后代节点列表,这导致大量中间结果产生,严重影响了算法执行效率。并且,对于含较多相对路径表达式以及含通配符的表达式查询支持有限。另一个方向是采用整体匹配的思想,即在匹配过程中,将路径表达式中节点间的位置信息考虑在内,作为一个整体进行一次匹配。其主流做法是将XML文档和查询树均以某种编码进行转化,使之成为字符串,然后按照某种遍历策略对字符串进行匹配验证。该思想流行算法很多,但大都不支持逻辑谓词处理。本文在对当前主流XML文档过滤模型进行分析的基础上提出一种新型过滤模型-——FST (Filtering by Sequencing Twigs)。该模型采用整体匹配的思想,将XML文档树的结构信息存储在一种新型数据结构中,采用普吕弗序列生成算法将XML文档及小枝模式查询语句转化为字符串,于是XML文档过滤问题被成功的转化为普吕弗序列的匹配问题。匹配过程中利用一个全局运行栈的数据结构,保证了匹配的有序性,同时,利用全局运行栈从顺序索引的生成及子序列匹配范围的限制两个方面对算法进行了优化,保证了所有的过滤通过一次XML文档遍历便可完成,大大提高了程序的执行效率。针对值谓词以及逻辑谓词,本文提出了一种基于小枝模式的改进策略及预处理方法,使过滤模型可以有效支持等值谓词、非等值谓词以及逻辑谓词。多组实验数据表明,本文的基于有序小枝模式的XML文档过滤模型在效率上较以往过滤模型有较大提高。
其他文献
纹理是一种区域视觉线索,在图像中普遍存在而又难以描述,是一种描述图像中各个像素之间的空间分布关系,一直以来都没有较好的定义。由于纹理信息能够充分地利用到图像中的信息,因
人工微结构材料是一种人工功能材料,具有自然材料所不具备的电磁特性,且其特性可视具体需求而人为设计。人工微结构材料的出现导致了全新的操控电磁波的技术和方法,大大拓展了传统的电磁学领域。围绕这一国际电磁学领域的研究热点,本文着重研究了人工微结构材料调控电磁波时空特性的机理,并探讨了其潜在的应用前景及实现方式。主要工作概括如下:第一,基于等效介质理论,首次给出了人工微结构材料的等效电磁参数收敛的厚度条件
无线传感器网络(Wireless Sensor Network,WSN)是对信息进行采集、处理并传输的信息监测网络。传统的WSN由于其对信息传输及计算处理能力已无法满足越来越高的应用要求,常常
目前的互联网应用已经进入了WEB2.0时代,互联网应用对于数据库的支持提出了更高的要求,总的来说,挑战来自两个方面,一者是数据规模越来越大,二是读少写多的操作特点。针对这
图像聚类与检索作为计算机视觉领域中高层语义理解层面下的两大研究方向具有广泛的应用价值。其主要研究方向集中于如何形成合理的图像特征表达和设计优化的推理求解算法。使
随着Internet技术的飞速发展,互联网上的信息呈指数级增长。庞大的数字化信息与人们获取所需信息的能力之间的矛盾日益突出,怎样快速准确地检索相关信息已经成为当今信息领域
由于社会网络的广泛传播性、动态性以及多样性,受到越来越多的用户欢迎,大量社会网络服务网站快速崛起。人们利用社会网络提供的服务,将自己的资源存放在平台上,进行信息分享
协同商务平台的环境复杂,涉及到的用户和资源数量多,对访问控制技术提出了更高的要求。针对大型协同商务平台中权限管理困难的问题以及对动态授权的需求,本文改进现有模型并
EPON (Ethernet Passive Optical Network,以太无源光网络)是一种新型的光纤接入网技术,它采用点到多点结构,在以太网之上提供多种业务。它综合了无源光网络(PassiveOptical Net
计算机大规模处理数据有多种方式,伴随着因特网的普及和云计算的高速发展,网络与计算机更紧密的结合在了一起。在庞大的网络环境中散布着大量的处理终端和服务器,发生错误或