论文部分内容阅读
城市出租车装配的GPS设备每天能够收集到大量的轨迹数据,这些数据是基于位置的服务(Location-based service,简称LBS)相关研究的重要数据来源,通过对海量的出租车轨迹数据进行分析和挖掘,能够了解交通流量规律,辅助合理规划出行,发现人群行为特征等。数据规模和数据质量等方面对基于位置服务的相关研究均提出了挑战,随着Hadoop等分布式计算平台的日趋成熟,能够高效支持对大规模数据的分析计算,本文工作采用分布式平台解决对海量轨迹数据的分析与建模问题,并基于该处理框架建立位置推荐服务应用,实现了基于出租车轨迹数据的扬招点查询和候车时间预测的位置推荐系统。本文主要工作包括以下几个方面:海量轨迹数据分布式处理框架提出了海量轨迹数据的分布式处理框架,分别讨论通用轨迹数据处理中的噪声过滤、路网匹配和特征抽取三个阶段利用Map-Reduce的计算方案,并实现了本文的路网匹配RouteFit算法。兴趣点聚类发现算法采用基于密度的聚类方法来发现位置点数据中的兴趣点和兴趣区域,通过实现Pick-up DBScan算法来完成对出租车轨迹数据中具有语义特征的上下客位置点的聚类,生成候选出租车扬招POI和热门目的地ROI,为推荐提供重要数据集。扬招推荐服务与候车时间预测介绍了利用海量出租车轨迹数据来优化出行的位置推荐服务,提出了出租扬招位置查询和候车时间预测系统,以推荐合理的出租车扬招位置点和预测准确的候车时间为目的,离线处理部分通过分布式轨迹处理框架完成轨迹预处理和特征抽取工作,以路段聚类的方法来划分模型粒度,设计多种空车等候时间的预测模型并进行评估和选择,在线查询部分利用空间索引技术和Web服务技术实现对输入查询点的实时位置推荐服务,最后实现了基于上海市区大规模出租车轨迹历史数据的处理和分析预测的原型系统,提供对出租车扬招点得位置推荐服务。