论文部分内容阅读
目前,许多重要领域都涉及到不确定数据的管理,如:数据集成,无线传感器网络,金融监控,趋势预测以及移动对象的管理。由于固有以及人为的多方面原因,这些领域的数据具有不可避免的不确定性,其不确定性主要体现在对象的数据不确定性,存在不确定性和位置不确定性等方面。近年来,许多研究者把目光投向不确定数据的建模、查询估计、数据索引,Top-k查询,天际线查询以及聚类和数据挖掘等领域,并取得了很多的成果。然而,尽管概率聚合查询是一种非常重要的查询,关于它的研究依然寥寥无几。传统的聚合查询返回位于给定查询范围内的所有对象的概括信息,比如满足查询条件的对象个数。这种查询类型是很重要的,因为用户有时可能只是对聚合信息感兴趣而不是某个具体的对象,所以聚合查在现实中被广泛的应用。例如在交通监控中,为了检测高峰时刻的十字路口A的车流量,查询“在今天上午八点到九点之间有多少辆车通过十字路口A”。本文首先介绍确定数据上的聚合查询技术,并扩展到不确定数据的聚合查询,给出面向不确定数据的聚合查询的定义。然后,在已知的不确定数据索引U-tree的基础上增加不确定对象的聚合信息,提出一种针对面向不确定数据的聚合查询的新的索引结构aU-tree。接着通过对最小边界矩形MBR的预先划分,提出了单个对象和多个对象的过滤技术,并给出基于aU-tree的面向不确定数据的聚合查询算法。为了提高算法效率,缩短计算时间,提出了基于采样的近似查询算法,包括单采样方法和双采样方法。这两种基于采样的近似算法,在确保结果精确度的前提下大大的缩短了计算时间。本文在实验中对aU-tree和近似算法的性能进行了测试,并对近似算法的精确度进行了测试,测试结果表明,近似算法的性能要远高于aU-tree,精确度至少在90%以上。