分布式序敏感查询处理关键技术研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:outong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着信息技术的迅猛发展,信息资源极大丰富。如何从海量数据中快速提取少量的最有价值的信息成为了数据库领域面临的一个重大挑战。在此背景下,数据库领域在最近几年产生了两个新兴的查询分支:top-k查询和轮廓查询。Top-k查询是根据用户指定的聚集函数查找聚集值最高的前k个对象;而轮廓查询则是查找不被其它对象“支配”的对象集。这两种查询为海量数据的查询处理提供了全新的思想和方法,得到了广泛的研究与应用。由于top-k查询和轮廓查询都是关注含有排序信息的结果集,在本文中我们把top-k查询和轮廓查询统称为序敏感查询。传统的数据库查询处理技术只能处理存储在磁盘或内存等介质中的静态数据,而在许多应用中,数据往往以是流的形式动态产生并且不被保存。这种数据模型被称为数据流模型。数据流模型所具有的无限、连续、快速、实时等诸多特征使得传统的数据库管理技术无法用于数据流的管理。数据流管理技术也因此成为了近年来数据库领域研究热点之一。如何支持数据流上的序敏感查询处理也正在得到越来越多的关注。为了区分数据库系统中的快照式查询处理和数据流系统中的连续的查询处理,在本文中我们将数据库系统中的查询处理称为快照查询处理,将数据流系统中的查询处理称为监测查询处理。随着计算机网络技术的发展,越来越多的数据资源产生或存储于网络之中。如何实现分布式数据资源上高效的序敏感查询处理成为了数据库研究领域的一个重要问题。目前,分布式序敏感查询处理技术已经取得了一些有价值的探索性成果,但是总体上还处于发展初期,在许多方面尚未成熟。在此背景下,本文针对已有工作的某些不足,着重对分布式top-k快照查询处理、分布式top-k监测查询处理和分布式轮廓快照查询处理技术展开深入研究,主要工作包括:1.分布式top-k快照查询处理方面。网络延迟对分布式快照查询处理的查询响应有着严重的影响,而已有的top-k快照查询处理算法对这一方面的考虑不足。针对这一问题,提出了一种实现非阻塞top-k快照查询处理的方法。该方法将异步的数据访问和渐进式的结果输出相结合,以获得快速的查询响应。基于该方法提出了一种非阻塞top-k快照查询处理算法PR及其改进型算法APR。理论分析表明,APR算法的平均网络流量低于现有同类算法,最大网络流量与现有同类算法相同;实验结果表明,APR算法在响应时间、执行时间和网络流量方面均优于现有同类算法。2.分布式top-k监测查询处理方面。分布式top-k监测查询处理的核心问题是如何减少监测过程中的网络流量。针对这个问题,对分布式top-k监测查询处理的特性进行了深入的理论分析,证明了发生约束冲突的对象集是重新建立监测约束时所需要的最小集,并提出了一种基于最小约束重建集的约束重建方法。该方法在重建约束时传输的对象为最少。基于该方法提出了一种面向求和运算的分布式top-k监测查询处理算法MR。理论分析表明,MR算法通讯代价与k无关;实验结果表明,当k不小于10时,MR算法的网络流量只有已有同类算法的10%~50%左右。另外,由于MR算法和已有同类算法都只支持求和运算作为top-k监测查询处理的聚集函数,而在实际应用中,用户给定的聚集函数可能是任意的单调聚集函数,为此,我们进一步提出了基于最小约束重建集的通用的分布式top-k监测查询处理方法。基于该方法提出了一种支持任意的连续的严格单调函数的分布式top-k监测查询处理算法GMR。理论分析表明,GMR算法的通讯代价是独立于k值;实验结果表明,GMR算法的网络流量比朴素的同类方法低一个数量级以上。3.分布式轮廓快照查询处理方面。如何在节点数较大时减少查询时的网络流量是分布式轮廓快照查询处理面临的一个重要问题。针对这个问题,提出了分阶段数据访问来降低网络流量的方法,并由此提出了一种四阶段分布式轮廓快照查询处理算法FDSL。实验表明,FDSL算法在节点数超过4时在网络流量方面优于同类算法。4.基于上述关键技术的研究探索,以海量数据处理中间件StarTPMonitor为支撑平台,设计并实现了面向海量信息的、支持分布式序敏感查询处理的分析查询处理引擎StarAnalysis。测试表明,StarAnalysis能够有效的支持海量数据上的分布式分析查询处理。综上所述,本文针对分布式序敏感查询处理的几个关键问题提出了有效的解决方案,对提高分布式序敏感查询处理的效率和实用化程度具有重要的理论意义和实用价值。
其他文献
门,作为重要的建筑部件,以其特定的文化内涵被众多艺术家所关注,因此门作为艺术创作题材早已出现在油画作品当中。艺术家借助门这一题材,看待和审视社会,见证历史变迁、自我言说个人对于社会的观察与理解,形成独立的艺术风格和视觉效果,印证艺术家内在深刻的感情世界。本篇论文以油画作品中对门题材的研究与表现为课题研究主旨,文章前半部分以门的概述、功能及文化内涵为着眼点,正是因为门本身是一个具有多重文化的载体从而
青海省“十三五”时期的总体要求是全面贯彻党的十八大和十八届三中、四中、五中全会精神,紧紧围绕统筹推进“五位一体”总体布局和协调推进“四个全面”战略布局,牢固树立和
放射性药物生物动力学数据分析及内照射剂量计算和组织中植入种籽源的剂量分布,一直分别是核药学研究、新药物开发和肿瘤介入治疗中亟待解决的技术难题。针对这些问题,本文编制
目的:探讨目前全身麻醉方法行择期手术,术中知晓的发生率并分析可能引起术中知晓的原因。方法:回顾性分析全身麻醉的1 800例择期手术患者的临床资料,均采用硫喷妥钠、恩氟烷静
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
<正>通过了解西方国家的文学作品可以发现,现代西方文学的发展仍然带有希腊神话的影子。本文研究了希腊神话的背景和意义,探讨了现代西方文学对希腊神话的继承与发展,以期为
潜在语义索引(LSI)是一种信息检索代数模型,它使用统计计算的方法对大量的文本集进行分析,从而提取出词与词之间潜在的语义结构,并用这种潜在的语义结构来表示词和文本,达到消除词