论文部分内容阅读
时态数据在现今许多应用场景中十分常见,随着数据量的增长,在时态大数据的处理场景下提供一个易用且具有高吞吐量和低延迟特性的机制变得尤为重要。国内外已有一些在时空数据库和基于集群计算的时间分析工具上进行的研究,但这些研究系统大部分都是基于外存的,一旦应用在大数据处理场景下,其性能将迅速降低。本论文基于目前流行的内存分布式计算框架Apache Spark构建了一个易用且高可扩展的时态大数据查询分析系统,通过扩展Spark SQL解析器使其支持类SQL形式的时态操作,并吸纳SIMBA开源项目的思路,引入了全局过滤和局部时态索引两种新的优化策略,使得系统能以高吞吐量及低延迟来执行时态查询操作,针对时态查询效率的评估实验显示,在不同影响参数下相较于原生的Spark SQL查询处理方案该系统具有更为优异的性能。