面向轨迹大数据的管理及查询研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:mnswangjian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着智能手机等移动定位设备的大量使用,人们在生产生活中获得了飞速增长的轨迹大数据。该类大数据包含了车、人、动物甚至商品的移动行为。由于数据采集来源广、数据量大、数据增长快等原因,轨迹大数据往往以分布式形式存储。海量的轨迹数据不仅刻画了移动对象个体和群体的时空动态性,还蕴含着移动对象的行为信息,对交通导航、城市规划、物流调度等应用具有重要的价值。为充分挖掘轨迹数据的价值,学术界和工业界对轨迹数据管理和分析开展了大量研究工作,包括轨迹数据索引、轨迹聚类、轨迹分类、轨迹异常检测和行为预测等问题。本文首先针对海量轨迹数据,研究了如何实现构建基于计算机集群的轨迹管理系统。现有的轨迹管理系统面临着I/O开销过高以致无法提供低延时查询服务的问题。为此,本文设计了基于分布式内存的轨迹管理系统TrajSpark。系统提出了基于列存储的轨迹表达方式,大大提高了内存的利用率。设计了两层索引结构,以提高查找效率。此外,TrajSpark引入了时间衰减模型以监控数据分布的变化并自动更新数据划分策略。该模型能有效降低新数据到达时的划分开销,提高了系统的可扩展性。进一步地,本文研究了分布式k近邻查询。尽管现有方法能提供查询结果,但面临着通信开销大的问题。此外,目前存在着许多轨迹距离度量方法,而现有处理方法往往只适用于单一距离函数,缺乏通用性。为处理以上挑战,本文提出使用概要数据进行距离范围估计并剪枝的思想,以达到降低通信和计算开销的目的。在该思想中,针对不同距离函数,分别设计了基于距离上、下界的剪枝策略和基于下界的剪枝查询策略。前一种策略适用于能根据概要数据同时计算出上、下界的距离函数,而后一种适用于根据概要数据仅能计算出下界的距离函数。最后,验证了具体的欧氏距离和动态时间弯曲距离在两种策略下的实现。本文主要贡献包括如下三方面:1.设计了基于分布式内存的轨迹管理系统TrajSpark,以提供低延时的轨迹查询。现有基于分布式磁盘的管理系统无法提供低延时的查询服务。为此,本文研究并构建了基于分布式内存的轨迹管理系统TrajSpark。TrajSpark提出了新的基于内存的轨迹表达结构IndexTRDD。该结构引入了高效的轨迹表示方法和两层索引策略。系统针对典型轨迹查询,设计了高效的查询算法。此外,系统引入了时间衰减模型以减少数据增加后所造成的重新划分开销。海量轨迹数据集下的实验结果表明,TrajSpark相比已有系统具有较好的优越性。2.设计了使用概要数据计算距离上、下界的逐步剪枝策略,实现了欧氏距离在该策略下的查询算法。轨迹压缩是降低通信开销的有效方法,而使用计算复杂度更低的距离上、下界进行剪枝是降低查询时间的有效途径。本文融合这两种方法,设计了使用轨迹压缩技术以得到多粒度概要数据,并使用该数据不断计算距离上、下界以逐步剪枝的查询策略FTB(Framework with Two Bounds)。为验证该策略的有效性,本文研究了使用该策略进行基于欧氏距离的k近邻查询。首先,本文使用哈尔小波系数作为多粒度概要数据。接着,设计了基于部分哈尔小波系数的欧氏距离上界和下界,并证明了随着数据粒度的增加所得到的距离上、下界会越来越紧。基于以上结论,设计了欧氏距离和FTB框架相结合的ED-FTB算法。最后,理论分析和实验结果相结合,展示了 ED-FTB算法相比于基准算法的优越性。3.设计了使用概要数据计算距离下界的逐步剪枝策略,实现了动态时间弯曲距离在该策略下的查询算法。针对根据概要数据仅能设计出距离下界的情况,设计了仅使用下界进行逐步剪枝的查询策略FLB(FrameworkwithLower Bound)。FLB通过计算一个不断逼近全局第k小距离的阈值来剪枝。为验证该策略的有效性,本文研究了使用FLB策略实现基于动态时间弯曲距离的k近邻查询。首先,设计了多粒度包围信封以作为概要数据。接着,提出了基于包围信封的动态时间弯曲距离下界,并证明了随着包围信封粒度的增加所得到的距离下界会越来越紧。基于以上分析,设计了动态时间弯曲距离和FLB框架相结合的DTW-FLB算法。该算法引入了在计算下界过程中剪枝的策略以提高执行效率。最后,我们在真实轨迹数据集上验证了算法的有效性和可扩展性。综上所述,本文围绕轨迹大数据的存储管理和查询进行了相关研究工作。以有效管理集中存储的海量轨迹数据为目标,提出了基于分布式内存的轨迹存储管理系统。首先提出了适用于内存的存储结构,进而提出了两层索引以管理数据。引入了时间衰减模型并自适应调整数据划分方式,以满足不断增长的轨迹数据。实现了典型的轨迹查询算法并在真实轨迹数据集上验证了系统性能。此外,针对海量轨迹分布存储的情况,以提供通信代价低的k近邻查询为目标。首先提出了使用多粒度概要数据计算距离上、下界以剪枝的查询策略,并针对仅能得到距离下界的情况,提出了使用不断逼紧的下界和全局阈值进行剪枝的查询策略。将具体的欧式距离和动态时间弯曲距离分别嵌入这两种策略中并设计了查询算法。理论分析和实验结果验证了所提算法的有效性和可扩展性。
其他文献
目的研究分析改良ICU患者交接班表格在ICU护理工作中的应用效果。方法在2012年7月于ICU内交接班采用交接班表格,以2012年7月-2012年12月为试验阶段;将2012年1月-2012年6月为
会议
对欧洲杯足球赛16支球队的进攻指标进行统计比较,解释欧洲强队攻防技战术的特点,分析其运用技战术的规律。文章运用因子分析和聚类分析筛选最优指标,针对最优指标进行描述性
目的探讨关节镜下经皮螺丝钉内固定治疗髌骨骨折的临床疗效。方法两组对照:治疗组2001年11月-2005年12月采用关节镜监视下经皮螺丝钉内固定治疗髌骨骨折30例;对照组随机选择既
以杭州市某预制装配式混凝土保障性住房工程为研究对象,根据调研数据,分析采用预制外墙、预制梁、预制楼板、预制楼梯和预制阳台板后相比现浇体系的单位建筑面积增量成本。此
工厂企业当中在出货之前要进行打包,一般采用的是打包机来实现。通过PLC控制的打包系统有着很高的可靠性和工作效率。本文介绍如何利用三菱公司的PLC来控制化纤打包机,利用梯
期刊
目的了解糖尿病性白内障超声乳化术后角膜水肿的观察及护理。方法选取我院2015年6月~2016年6月收治的糖尿病性白内障超乳化术后角膜水肿患者90例(140只眼)作为研究对象,对照
目的提出含餐3h pH的监测方法,并以常规24h pH检测为标准验证含餐3h监测方法的灵敏度及特异度。方法患者共221例,均行食管测压和pH监测。计算24h食管内pH监测方法pH〈4.0的时间
目的探讨高通量透析对维持性血液净化患者的临床疗效。方法选择2010年1月—2012年6月进行规律血液净化治疗的30例终末期肾脏病(end stage renal disease,ESRD)患者,患者均伴
<正> 灯会,是在我国小农经济基础上建立起来的文化架构,因此,又与土地崇拜分不开。在漫长的封建社会里,各个王朝都把农业作为立国之本,不仅处于最低层的农民对土地有着极大依
期刊