论文部分内容阅读
互联网技术的飞速发展以及传感器和GPS服务的广泛应用,使得实际应用中产生了海量的时空数据。因此,时空数据库的数据管理技术逐渐成为学术界的研究热点。时空数据库包含了空间数据库、时间数据库以及时空数据库的理念。关于时空数据库的数据管理技术的主要研究工作集中在数据建模、索引建立和查询处理几个方面。虽然学术上已有大量关于时空数据库管理技术的研究,现有的研究成果却不能良好地适用于实际应用中出现的新的数据类型以及在这些数据类型上出现的新的查询需求。例如,在婚介网站、求职网站和一些居所交换网站,用户经常需要搜寻彼此满足对方要求和偏好的潜在匹配对象。这种新型的查询需求是以往的常见查询--诸如区域查询和最近邻查询所不能实现的。此外,由于各种原因,在很多应用中出现的时空数据都带有不确定性。为确定数据所设计的索引结构和查询算法如果应用于不确定的数据集,会导致查询结果的错误以及查询效率的极大降低。实际应用数据经常拥有非常多的属性,所以在高维空间中如何高效地对数据进行管理也是值得深入研究的问题。为了处理新型数据上出现的新的查询类型,本文着重研究下面几种关键技术:确定空间数据的匹配查询处理技术,不确定空间数据的区域查询和相似度查询处理技术,以及不确定时空轨迹数据的相似度查询处理技术。本文的主要贡献如下所述:(1)深入探究了针对确定空间数据、不确定空间数据、确定时空数据和不确定时空数据所设计的索引结构和查询处理算法,并分析了现有技术的优点和不足。(2)根据网络应用的实际需求,提出了空间数据上的匹配查询问题。为了高效地处理匹配查询,我们提出了一个可以处理多种匹配查询的查询处理框架,并针对三种具体类型的匹配查询设计了详细的查询算法,以展示该查询处理框架的通用性。大量的实验结果表明:对于多种类型的匹配查询,我们提出的查询算法都可以显著地提高查询性能,并且查询性能的提高在数据维度较高时更加明显。(3)形式化地定义了不确定空间数据的两种最重要查询:概率区域查询和概率相似度查询。我们提出了一种索引机制DuoWave来索引用通用数据模型表示的不确定空间物体,并在DuoWave的基础上提出高效的查询算法来处理概率区域查询和概率相似度查询。大量的实验结果表明:基于DuoWave的查询算法的性能明显优于经典的查询算法,并且DuoWave的优势在高维空间中尤为明显。此外,DuoWave可以用来支持不确定空间数据上的一系列其他类型的查询。(4)形式化地定义了不确定时空轨迹数据的top-k相似度查询。给定一个查询物体,top-k相似度查询从数据库中返回和查询物体最相似的k个不确定时空轨迹数据。为了高效地处理top-k相似度查询,我们设计了一种新的索引结构UTgrid来管理数据库中的不确定时空轨迹数据,并利用UTgrid的剪枝能力设计了top-k相似度查询的处理算法。我们在真实数据集和合成数据集上进行了大量的实验。实验结果表明:UTgrid是一种有效的索引结构,并且基于UTgrid的查询处理算法可以有效地提高不确定时空轨迹数据的top-k相似度查询的性能。