论文部分内容阅读
随着全球定位技术的发展以及信息采集技术的进步,时空数据急剧增长。面对海量、多样、复杂的时空数据,如何对其高效存储和管理成为国内外学者研究的热点问题。传统集中式时空索引的单服务器环境难以满足海量时空数据的存储和查询开销,构建分布式时空索引成为必然趋势。面向列存储模式的分布式数据库较传统面向行存储的关系型数据库在海量数据处理方面具有极大优势,其以列为单位存取数据的模式以及高可用、并行式、易扩展、动态负载均衡等特性为海量时空数据的存储管理提供了解决思路。本文在以HBase为例的面向列存储模式数据库和时空索引的理论基础上,设计了两种新型的面向列存储模式的时空索引,并对两种索引的建立、查询算法设计、索引维护和优化进行了详细描述,最后采用HBase列数据库,通过实验分析评价了两种索引的性能。论文主要成果如下:(1)提出了一种面向列存储模式的时空索引结构。本文在深入研究列存储模式数据库和时空索引的理论基础上,结合列数据库分布式环境特点和以往的时空索引技术,提出了一种面向列存储模式的时空索引结构,并对构建时空索引相关技术进行了选取改进以适应新的面向列的分布式环境。这为之后的时空索引构建打下了良好的基础。(2)提出了基于“无表”结构面向列存储模式的时空索引。通过研究时空数据在列数据库中的存储模式,针对列数据库时空对象数据模型,提出了三种rowkey的设计模式,并设计了相应的时空数据存储结构。通过比较选取最优的空间转换组合模式的rowkey设计及相应的数据存储结构,建立了基于“无表”结构面向列存储模式的时空索引。描述了该索引的建立过程,设计了索引的时空范围查询和时空最邻近查询的算法,并给出了索引维护和优化策略。(3)提出了基于“二级表”结构面向列存储模式的时空索引。沿用最优的rowkey设计模式及相应的数据存储结构,建立了时间级和时间空间级两级索引表结构的基于“二级表”结构面向列存储模式的时空索引。描述了两级索引表建立算法和索引过程,设计了两级索引表结构的时空范围查询和时空最邻近查询的算法,并给出了索引维护和优化策略。(4)针对两种索引进行了实验检验并分析评价了索引性能。采用HBase列数据库,通过一系列实验检验了两种时空索引的性能,并对实验结果总结分析、客观评价。