论文部分内容阅读
近年来,随着互联网、移动通信以及感知定位技术的快速发展与应用,各种移动终端、图像视频采集设备以及社交平台产生了大量的地理位置等低维空间数据,和图像、文本等高维空间数据。这些数据具有海量、异构等特征,因而需要借助高效、准确的处理模型及算法,来挖掘其内在的信息与价值,从而支持相关行业进行更好的决策。因此,如何高效、准确地分析处理空间数据并挖掘其内在价值和信息,已成为当今计算机领域的重大前沿学术问题。在该领域问题中,空间数据最优点查询是近几年快速兴起的一类子问题。现有的空间数据查询算法在处理复杂决策分析问题时会出现低效和低准确度等不足,同时索引和查询算法还面临诸多难点和技术瓶颈。一方面,互联网、移动设备等每时每刻都在产生海量空间数据。这些海量数据是面向不同决策支持场景的,需要同时考虑数据点的变化特征、维度特征与度量空间特征等诸多因素。然而,目前国内外索引技术大多针对静态数据点,很少有考虑时间维度的索引,同时现有算法很难做到查询效率和查询准确性的兼顾。另一方面,针对不同的决策支持场景,最优点查询问题本身是复杂多变的。现有的(空间)最优点查询方法大多针对某一种特定的目标方程进行算法优化,因此扩展性差,执行效率低,尤其是在处理高维或者路网数据集,以及在处理组合最优点查询问题时,现有算法的准确性和效率都随着数据集复杂度的增加而急剧下降。基于上述两点对国内外研究现状和趋势的分析,本文研究并提出了面向不同应用背景的高效的最优点查询算法以支持不同的分析与决策场景。主要包括:1.研究提出了欧氏空间下单一最优点查询算法,针对现有双色反向最近邻数目最大化问题在大数据场景下的算法效率低和可扩展性差的不足,结合计算几何等领域的经典算法,提出了空间扫描策略、空间划分和上限估计策略以及基于“弧重叠”的影响值计算方法。实验结果证明,提出的算法相比于已有算法,有更高的效率,更低的内存占用率。2.研究提出了三维空间下单一最优点查询算法,首次解决了三维空间下双色体反向最近邻最大化问题。针对问题本身的空间特性和对索引效率的需求,提出了基于“细粒度”空间划分和上限估计的三维空间最优点查询算法,算法具有高效准确的特点。并且,证明了提出的算法扩展到更高维空间的可行性,对于空间数据最优点查询问题在高维空间下的研究有重要的意义。3.研究提出了考虑服务设施点容量限制的空间最优点查询算法,首次解决了服务点容量受限场景下的空间数据最优点查询问题。通过研究空间数据库以及运筹学领域的带有容量限制的服务设施点选址查询问题,并分析现有算法的应用场景局限性,最后提出了基础搜索算法、基于渐进式算法的搜索算法以及基于空间剪枝的搜索算法。实验证明提出的算法能准确查询空间最优点,并给出准确的服务设施点和数据点之间的分配方案。4.研究提出了欧氏和路网空间中基于聚类算法的组合最优点查询算法。通过研究数据挖掘中的各种聚类方法,以及算法导论领域解决组合优化问题的各种经典近似算法,首次提出了基于聚类算法的组合最优点查询方案。提出的算法可以准确返回一组最少的最优位置点来覆盖所有数据点。相比于传统的组合最优点查询算法,具有更高的效率及更高的准确度。同时,首次将算法扩展到了路网数据空间,提出了高效的路网空间距离计算策略。本文研究内容主要围绕空间数据最优点查询问题,研究了二维三维欧氏空间中的单个最优点查询问题,并扩展到带有容量限制的场景,以及欧氏及路网空间中的组合最优点查询问题。提出的算法能够更高效、更正确地处理市场决策支持等问题。未来的研究方向包括动态场景下及高维空间和度量空间下的最优点查询问题:主要问题是将组合最优点问题扩展到高维空间(图片,文本)以及度量空间;以及研究利用分布式处理框架来处理空间数据最优点查询问题,使提出的查询算法在大规模数据集上有更好的性能。