海量时态数据的JOIN操作算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:chenyong198966
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在时态数据库中时态数据的JOIN操作是一种能起到关键作用的操作,一方面是由于该操作本身代价比较高。设想两个大小为n的表进行JOIN操作,如果采用最简单的嵌套循环方式,这个代价是非常高的,特别是对于数据量迅速增长的今天,这个n将十分庞大,n2更是我们无法想象的。另一方面高效实现该操作有助于解决其他一些问题,对于提高查询优化器的效率至关重要。如今解决该问题的算法主要有四类:基于嵌套循环、基于排序合并、基于划分和基于索引。基于嵌套循环的算法简单且易于实现,但时间复杂度太高,对于实际问题往往不能胜任。基于排序合并的算法需要在JOIN属性上进行排序,然而时态数据的JOIN属性是二维的,因此很难找到一个线性顺序,这就导致进行JOIN的关系要被多次读取,进而造成性能下降。虽然也有其他的一些算法在JOIN属性上添加限制,但这样的算法就丧失了一般性。基于划分和基于索引的算法确实出现了一些不错的算法,如文献[1]中提出的重叠区间划分算法,但该算法不是一个精确算法,产生的连接结果会多于实际的连接结果。针对现如今这些算法的缺陷,本文提出了基于对称索引的增量式重叠区间JOIN算法SISJoin。首先该算法是一个精确算法,其次该算法简单且易于实现,最后通过理论分和实验验证该算法非常高效。该算法是直接针对JOIN条件构建索引结构,且索引结构非常简单构建也非常高效。在JOIN算法中又利用JOIN必要条件提前过滤掉不可能产生JOIN结果的数据,这样就减少了参与JOIN的数据规模,然后还采用增量策略又极大的减少了比较操作的次数。最后我们还进行了4组实验,实验结果表明采用增量策略JOIN时间会降低数十倍,在真实数据集上SISJoin算法优势显著,SISJoin算法也基本不受Long Lived Tuple影响,在大数据量的分布式环境下,SISJoin算法也表现出较好的扩展性。
其他文献
随着电子技术的发展,视频监控系统大致经历了模拟视频监控系统和数字化视频监控系统,我国监控系统建设在各方面都取得了长足的进步,为提高国家教育考试的管理效能,教育部考试
无线传感器网络是由大量随机部署在一定的地理区域内的传感器节点组成的无线自组织网络。网络节点间协作地感知、采集网络覆盖区域内物理对象的信息,为人们提供了与物理信息
航磁异常探测属于航空磁探测的分支,是一种基于航空平台进行磁测量的手段,在地球物理中研究地址构造,矿物勘探,磁场图绘制中有着广泛的应用。航磁异常探测首先需要进行航磁补
随着P2P、VOIP等新颖应用技术的不断涌现和网络应用类型复杂度的日益增长,网络流量的本质正在不可避免的被革新。通过有效的技术手段,管理和控制网络中的各种业务流量,为不同
学位
虚拟根系是在计算机上以可视化的方式模拟根系在三维空间中的形态结构变化规律及其生长发育过程,是虚拟作物研究中的重要组成部分,在农学、生态学、虚拟教学以及提高虚拟作物生长研究整体水平具有十分重要的现实意义和广泛的应用前景。本文以小麦根系为研究对象,以生长度日(GDD)为驱动因子,基于不同试验资料,初步构建了小麦根系三维形态模型。然后,结合模型输出的形态特征参数和拓扑结构,利用三维几何建模技术,构建了小
随着现代服务业、服务计算和云服务等新兴技术的迅猛发展,服务变得越来越多样化,顾客需求也变得越来越复杂。当中介组合多个原子服务形成组合服务提供给顾客时,该组合服务也
语音转换技术是语音信号处理一个比较新的研究方向,也是近年来语音研究的热点。说话人的语音转换是指在不改变语音内容的情况下,使源说话人的声音转换为目标说话人的声音。本文
Mashup是Web2.0发展的一个最新流行趋势,一种新型的信息服务。它是从各分散的站点获取信息源,组合成新网络应用的一种应用模式。它一般使用源应用的API接口,或者是一些RSS输
随着计算机技术的飞速发展,尤其是网络技术的飞速发展,办公自动化系统在技术和应用上都得到了更高层次的发展。因此,对于一个事业单位,如果要在未来的社会中获得发展,掌握办