面向亿级图的高效索引和查询系统

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:bigger111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图常用的查询算法有可达性、最短路径距离和最宽路径查询等,传统查询算法有两种:一种是求解完整传递闭包,即预计算出所有的结果,那么查询效率为(1);另一种则是使用修改的Dijkstra算法或其他算法直接在原图上进行搜索,空间开销为(1)。而近年来图规模快速增长,其节点和边的总数可以达到亿级规模。针对如此大规模的图,前者查询效率虽高,但是空间开销使其难以扩展;后者虽然空间开销(1)很低,但直接在原图搜索的算法往往因其过高的时间复杂度,无法满足一些实时性要求很高的应用。因此在大规模图中,如何进行快速高效地查询是极具挑战意义的。面向亿级图的高效索引和查询系统是为了解决传统算法在大规模图处理中,查询效率低或者空间复杂度过高的问题。该系统基于2-hop label索引结构,采用空间换时间的思想,在查询效率和空间复杂度之间获得平衡。并提出了一个基于剪枝思想的最宽路径索引算法,该算法在处理大规模图时,能使索引规模显著降低。算法为每个节点依次执行剪枝的Dijkstra算法,并产生索引标签。其能减少索引时间和索引大小的核心关键是引入一个剪枝的操作。除此之外,本系统还集成了能支持亿级规模图的最短路径、可达性查询的索引算法,并提供索引的分布式存储和查询。实验结果表明,本系统基于剪枝的最宽路径索引方法,可以处理至亿级规模图,且查询时间在微秒级别。与传统算法相比,查询速度提高了6个数量级,并且在索引时间、索引大小和查询效率之间取得一个较好平衡,扩展性良好。同时本系统集成的最短路径、可达性查询的索引算法,都能够支持至亿级规模图,查询时间也都在微秒级别。
其他文献
B公司是一家中型科技公司,主要业务是开发和销售法律、商业方面的数据库。近年来,随着中国经济的发展和法制的健全,法务、商业数据方面的市场需求越来越大,B公司进入高速发展期。IT部作为B公司的支持部门,主要负责B公司的IT基础结构、相关应用软件、计算机软硬件的管理、维护、排障等相关工作。但是,目前B公司的IT部门存在着很多问题。例如,IT部门员工的服务意识普遍不高,大部分人的意识还停留在“做技术”而不
电子与高离化态离子的碰撞是天体和实验室等离子体环境中非常重要的原子物理过程,其高精度的原子参数,如截面、强度、速率系数以及退激发辐射光子的线性极化度等对等离子体的
在全行业快速发展的当下,互联网和高新科技快速发展,越来越多的企业对人才有了更多、更全面的需求,这也导致社会对高职院校的人才教育有了更高的期待。如何实现高职院校的教
当今社交媒体活跃在人们生活的各个角落,将用户社交关系结合传统推荐方法进行社会化推荐的方向成为新的研究热点。社会化推荐系统融合社交属性信息与评分信息进行推荐,一定程度上提高了系统推荐的准确性,但社会化推荐系统的开放性,极易受到恶意攻击,此类行为危害了社会化推荐的真实性,加深用户对系统推荐的不信任。国内外研究人员针对评分推荐系统或社交网络的攻击检测已有很多研究成果,但是很少关注针对社会化推荐系统的托攻
估计出监控场景中实时人数有助于突发事件的事前预警和事后决策。本文对治安智能视频监控系统中的拥挤人群计数以及人群密度统计进行了深入的研究。通过分析已有拥挤人群计数
传统的运动规划方法很难适用于六足机器人的多个关节角度规划,合理的角度规划是实现其稳定运动基础。仿照生物体中的中枢模式发生器(CPG)来规划机器人运动的节律信号是解决规
稳定性理论有着广泛的应用。比如,自然科学、工程技术、环境生态、社会经济等方面。本文主要讨论了几类随机时滞神经网络的稳定性。通过对不同神经网络模型的解的性质的研究,
近年来,深度卷积网络被广泛应用于计算机视觉领域,在许多视觉任务上如图像分类、目标检测、视频跟踪、图像分割等取得了优异的表现。性能优异的深度卷积网络往往具有参数量大
喷码机因机器设备内在性能或喷码机的喷头被墨水堵塞以及喷码内容设置错误等问题使喷印的字符出现各种缺陷,例如字符残缺、字符漏印、字符被污染等。印有缺陷字符的商品,一旦
压缩感知(CS)是一种新型的信号采样技术,能够从远低于奈奎斯特采样频率的随机线性测量来重建原始图像信息,其核心在于设计高效的压缩感知重建方法。然而,传统的重建方法需要