论文部分内容阅读
近年来,随着智能手机等移动定位设备的大量使用,人们在生产生活中获得了飞速增长的轨迹大数据。该类大数据包含了车、人、动物甚至商品的移动行为。由于数据采集来源广、数据量大、数据增长快等原因,轨迹大数据往往以分布式形式存储。海量的轨迹数据不仅刻画了移动对象个体和群体的时空动态性,还蕴含着移动对象的行为信息,对交通导航、城市规划、物流调度等应用具有重要的价值。为充分挖掘轨迹数据的价值,学术界和工业界对轨迹数据管理和分析开展了大量研究工作,包括轨迹数据索引、轨迹聚类、轨迹分类、轨迹异常检测和行为预测等问题。本文首先针对海量轨迹数据,研究了如何实现构建基于计算机集群的轨迹管理系统。现有的轨迹管理系统面临着I/O开销过高以致无法提供低延时查询服务的问题。为此,本文设计了基于分布式内存的轨迹管理系统TrajSpark。系统提出了基于列存储的轨迹表达方式,大大提高了内存的利用率。设计了两层索引结构,以提高查找效率。此外,TrajSpark引入了时间衰减模型以监控数据分布的变化并自动更新数据划分策略。该模型能有效降低新数据到达时的划分开销,提高了系统的可扩展性。进一步地,本文研究了分布式k近邻查询。尽管现有方法能提供查询结果,但面临着通信开销大的问题。此外,目前存在着许多轨迹距离度量方法,而现有处理方法往往只适用于单一距离函数,缺乏通用性。为处理以上挑战,本文提出使用概要数据进行距离范围估计并剪枝的思想,以达到降低通信和计算开销的目的。在该思想中,针对不同距离函数,分别设计了基于距离上、下界的剪枝策略和基于下界的剪枝查询策略。前一种策略适用于能根据概要数据同时计算出上、下界的距离函数,而后一种适用于根据概要数据仅能计算出下界的距离函数。最后,验证了具体的欧氏距离和动态时间弯曲距离在两种策略下的实现。本文主要贡献包括如下三方面:1.设计了基于分布式内存的轨迹管理系统TrajSpark,以提供低延时的轨迹查询。现有基于分布式磁盘的管理系统无法提供低延时的查询服务。为此,本文研究并构建了基于分布式内存的轨迹管理系统TrajSpark。TrajSpark提出了新的基于内存的轨迹表达结构IndexTRDD。该结构引入了高效的轨迹表示方法和两层索引策略。系统针对典型轨迹查询,设计了高效的查询算法。此外,系统引入了时间衰减模型以减少数据增加后所造成的重新划分开销。海量轨迹数据集下的实验结果表明,TrajSpark相比已有系统具有较好的优越性。2.设计了使用概要数据计算距离上、下界的逐步剪枝策略,实现了欧氏距离在该策略下的查询算法。轨迹压缩是降低通信开销的有效方法,而使用计算复杂度更低的距离上、下界进行剪枝是降低查询时间的有效途径。本文融合这两种方法,设计了使用轨迹压缩技术以得到多粒度概要数据,并使用该数据不断计算距离上、下界以逐步剪枝的查询策略FTB(Framework with Two Bounds)。为验证该策略的有效性,本文研究了使用该策略进行基于欧氏距离的k近邻查询。首先,本文使用哈尔小波系数作为多粒度概要数据。接着,设计了基于部分哈尔小波系数的欧氏距离上界和下界,并证明了随着数据粒度的增加所得到的距离上、下界会越来越紧。基于以上结论,设计了欧氏距离和FTB框架相结合的ED-FTB算法。最后,理论分析和实验结果相结合,展示了 ED-FTB算法相比于基准算法的优越性。3.设计了使用概要数据计算距离下界的逐步剪枝策略,实现了动态时间弯曲距离在该策略下的查询算法。针对根据概要数据仅能设计出距离下界的情况,设计了仅使用下界进行逐步剪枝的查询策略FLB(FrameworkwithLower Bound)。FLB通过计算一个不断逼近全局第k小距离的阈值来剪枝。为验证该策略的有效性,本文研究了使用FLB策略实现基于动态时间弯曲距离的k近邻查询。首先,设计了多粒度包围信封以作为概要数据。接着,提出了基于包围信封的动态时间弯曲距离下界,并证明了随着包围信封粒度的增加所得到的距离下界会越来越紧。基于以上分析,设计了动态时间弯曲距离和FLB框架相结合的DTW-FLB算法。该算法引入了在计算下界过程中剪枝的策略以提高执行效率。最后,我们在真实轨迹数据集上验证了算法的有效性和可扩展性。综上所述,本文围绕轨迹大数据的存储管理和查询进行了相关研究工作。以有效管理集中存储的海量轨迹数据为目标,提出了基于分布式内存的轨迹存储管理系统。首先提出了适用于内存的存储结构,进而提出了两层索引以管理数据。引入了时间衰减模型并自适应调整数据划分方式,以满足不断增长的轨迹数据。实现了典型的轨迹查询算法并在真实轨迹数据集上验证了系统性能。此外,针对海量轨迹分布存储的情况,以提供通信代价低的k近邻查询为目标。首先提出了使用多粒度概要数据计算距离上、下界以剪枝的查询策略,并针对仅能得到距离下界的情况,提出了使用不断逼紧的下界和全局阈值进行剪枝的查询策略。将具体的欧式距离和动态时间弯曲距离分别嵌入这两种策略中并设计了查询算法。理论分析和实验结果验证了所提算法的有效性和可扩展性。