高扩展的RDF数据存储系统研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:f_m_q
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于RDF(Resource Description Framework)数据具有表达灵活,数据交换方便等优点,其数据量在以惊人的速度增长。传统的RDF数据存储系统或以关系数据库为存储后端,或以本地存储方式存储数据,但是这些存储方式在存储大规模的RDF数据时都面临着扩展性问题。在存储大规模RDF数据时,需要降低数据的存储空间并加速查询处理。但目前提出的存储方式不够紧凑且存在大量的冗余数据,导致在生成查询计划和执行过程中消耗了大量的时间。高扩展的RDF数据存储系统TripleBit旨在为大规模RDF数据提供一个高效的存储和查询方案。利用RDF数据特点,系统将RDF数据表达成一个位图矩阵。为了降低数据占用空间,在数据存储时针对各个数据表特征和作用设计了相应的压缩算法。在底层具体存储时采用了基于内存的存储方式降低了系统在存储和查询时的I/O开销,并采用了数据分块的存储方法,既使得存储管理方便又使得存储结构紧凑,加速了查询处理。为了提高RDF数据查找的速度,系统设计了两类索引分别加速系统数据块的定位和谓词未知的查询处理。在查询RDF数据时,系统基于启发式规则简单有效地生成查询计划。在执行查询计划时,根据查询类型采用不同的执行策略,并利用并行执行子系统提高连接查询操作的效率。对于多变量的查询计划,采用二步执行策略减少查询过程中产生的中间结果,并动态地调整查询计划。与目前流行RDF数据存储系统RDF-3X进行性能对比测试的结果表明,在存储空间上比RDF-3X至少降低了40%,在查询性能上比RDF-3X至少提升了3倍。实验进一步表明,TripleBit所采用的查询计划生成方式和索引技术对查询处理性能的提升有很大的帮助。
其他文献
发达的移动互联网及移动设备加速了移动产品用户行为的无处不在,传统的基于桌面的研究方法已经不能很好的适用于移动用户体验研究中,需要可以配合实时采集用户数据的远程用户
生活中的知识通常具有不确定性、不一致性和不完全性,这些知识被统称为信念。怎样解决信念间的不一致性是计算机模拟人类推理过程的重要研究内容。目前。信念修正要进行修正
随着网络资源的不断膨胀,信息的不断增多使得人们获取有价值的信息变得越来越困难。而Tweets、微博等短文本的发展和流行,使得人们更加无法从中获取更多感兴趣的内容,拓展命
随着多媒体技术、建模仿真技术和网络通信技术等一系列信息技术的发展,虚拟实验在诸多学科的作用越来越显著。而传统的单学科虚拟实验系统在实现上没有统一的标准,实现方法差异
实时数据库被广泛应用于市场预测、制造工程监控、传感器网络、军事指挥系统等领域,这些应用产生的数据往往存在不确定性。而传统的实时数据库不能有效管理不确定数据,因此有必
当下物联网领域最主要的非接触式通信技术就是射频识别。但射频识别的应用受到很多不确定因素的影响,其中最主要的是信道冲突问题,也就是常说的标签碰撞。为了解决碰撞问题,研究
在以机械磁盘为存储介质的计算机系统中,数据读写操作的效率和可靠性将直接影响整个计算机系统的性能和稳定性。为了在存储介质的读写速度、容量以及成本价格方面做出权衡,现代
随着网络技术的飞速发展,特别是P2P技术的普及,数字媒体的复制和传播变得更加容易,相应的媒体内容的版权保护问题变得更加复杂,因此迫切需要更为先进的数字版权保护技术来加强节
日志型文件系统保证了在服务器宕机时能够通过日志进行快速的文件系统一致性检查和恢复,因此被广泛使用。但文件系统日志存在对文件系统性能,尤其是写性能造成了一定的影响。而
随着云计算时代的到来,越来越多的数据被放在云端统一向用户提供相应的服务,如何保证数据实时在线、可服务已经成为一个重要的研究方向。目前,服务高可用性的研究仍处在初级阶段