论文部分内容阅读
语义网的不断发展使得RDF数据存储系统成为一个重要的研究课题。传统RDF数据存储系统在互联网数据爆炸式增长的趋势下遭遇难题,存储能力和查询响应性能都已不能满足用户日益增长的需求。研究人员开始将目光转向云计算领域,云计算具有的海量数据存储和计算能力被认为是解决海量RDF数据存储难题的一个适宜方案,该方面的研究尚处于起步阶段。本文以海量RDF数据存储系统的设计和实现为目标,对RDF数据存储模型和查询方案进行研究,提出适合云计算环境下的RDF数据存储和查询方案。合理的RDF数据存储模型对于提升RDF数据管理和查询性能具有重要作用。本文在分析现有RDF数据存储模型优缺点的基础上,提出基于有序二叉树的RDF数据存储模型。该模型不仅考虑RDF数据在自身结构方面的属性,而且融入云计算环境下数据存储和处理的特点。该模型在保证RDF数据查询响应效率的同时有效减少了存储开销,且能平滑应对RDF数据快速增长所带来的影响。在RDF数据查询方面,本文通过研究并行计算框架MapReduce的运行机制,结合RDF数据存储模型的特点,以查询性能最优化为目标,提出查询任务生成算法,并证明该算法可有效提升查询响应效率。本文在该算法的基础上,进一步讨论基于有序二叉树的RDF数据模型的特点,给出具体的RDF数据查询响应方案。与传统RDF数据查询方案相比,该方案充分发挥云计算在数据处理方面的优势,有效提高RDF存储系统的数据查询效率。本文最后针对所提出的RDF数据存储模型和查询方案设计了原型系统,并通过实验验证存储模型和查询方案的有效性。