论文部分内容阅读
由于空间数据的数据量庞大、多维、缺乏全序关系,使得空间数据查询的效率成为了空间数据库性能的瓶颈,空间查询优化势必成为空间数据库应用的难点和突破点。查询代价模型是空间查询优化的主要技术之一,在各种各样的查询之中,空间连接查询是空间数据库应用的一个基础性的而且代价高昂的操作,因此空间连接查询的代价评估对于空间优化策略有着重要的意义。本文从研究空间索引和空间查询等基础技术知识入手,深入研究了Yannis Theodoridis等人提出的基于R-tree的空间连接代价模型。对该模型中获得数据实际密度的抽样算法进行了深入的分析,提出将随机数表抽样算法应用于空间连接代价模型中,并给出了相应的计算公式;本文对非均匀分布的整体数据空间按一定原则划分子空间并抽样获取实际密度;对于连接查询中每一个查询窗口的实际密度,本文给出了一套计算规则,通过这些规则只增加非常小的计算量就可避免大量的随机抽样操作;对缓冲区策略LRU置换算法进行改进,提出了优先保存查询集合树的最新访问路径中的有效中间结点的PP-LRU算法,该算法在理论上大大降低了空间连接查询的代价。在以PP-LRU算法作为缓冲区策略基础上,对空间连接代价模型进行了扩展和改进,使其具有了较好的性能。最后,通过仿真实验对改进的代价模型进行了验证,实验结果表明,改进后的代价模型的相对误差保持在13%以内,并且改进模型的时间开销比原模型有了很大的改善。