论文部分内容阅读
图(Graph)作为一种常见通用的数据结构,由于其丰富的数据表现能力,在越来越多的应用中被用来对数据进行抽象和建模。随着社交网络,语义Web等大型应用的兴起,我们面临对来自大规模海量图数据的存储和查询的挑战,在存储方面,传统的基于磁盘或者分布式文件系统的解决方案并未充分考虑图的随机访问特性,因此在大规模数据集上的密集访问构成对系统IO性能的巨大威胁。在查询方面,传统的图查询算法往往只能满足在小规模数据集上的查询,当数据超过一定规模的时候,传统的算法无法完成真正意义上的实时查询。结合我们过去的工作,本文提出了一种基于分布式内存云Trinity的分布式内存图存储和建模方案,根据分布式内存云的特征,我们又设计实现了一套完整的查询方案,包括查询语言,查询执行,查询优化等多个方面的工作。考虑到在实际场景中的内存限制,我们另外提出了一种结合分布式内存云与RDBMS的混合存储方案,并对此进行了查询优化的重新设计。我们在现有的最大规模的数据集上进行了实验评估,结果表明我们的存储方案,优化方案和整体的系统性能都有非常出色的表现。