论文部分内容阅读
不确定数据广泛存在于文本分析、信息检索、传感器网络和射频识别等领域中。随着数据采集手段的发展,客观世界中普遍存在的数据不确定性已经逐渐被人们所认识。不确定数据查询处理问题已经引发了学术界和工业界的共同关注与重视,成为新近发展起来的研究热点。
Top-k查询方法应用十分广泛。在传统确定数据处理中,top-k查询只需要返回打分函数值最大的k个数据对象,而对于不确定数据top-k查询,由于概率的存在,打分函数与概率的相互作用决定返回的查询结果,考量二者不同的结合方式则产生不同的不确定top-k查询语义。但在已有的不确定数据top-k查询语义中,只返回在可能世界中聚集概率最大的一个应答,并不能满足用户差异化的查询需求。针对这个问题,本文引入了反映查询需求的指标——需求扩展度,定义了基于需求扩展的不确定数据查询语义RU-Topk,并且提出了在新的语义下的查询算法,实验表明RU-Topk算法具有较小的平均单位查询运行时间,在满足用户需求的情况下,具备更高的查询效率。
由于概率维的存在,不确定数据top-k查询需要在与元组个数呈指数规模增长的可能世界空间中进行扫描。本文探讨了基于图形处理器(Graphic Processing Unit,GPU)的并行计算技术进行RU-Topk算法优化的方法。GPU由于其多核、多线程、高带宽、计算能力强等高性能特点,使得近年基于GPU的通用并行计算得到广泛应用。本文根据RU-Topk语义下算法的特点,探讨了在查询任务高负载情况下,基于GPU同步模式的RU-Topk查询算法的设计与实现,并通过实验验证了算法具有良好的加速比。此外,还研究了在低负载情况下,通过回归分析的方法得到基于异步模式下查询的派发策略,通过使用该策略能实现以快速性为目标的、适应性地选择CPU或GPU来执行查询,缩短单个查询响应时间,进一步提高查询性能。