论文部分内容阅读
近年来,随着移动设备飞快普及与硬件存储、计算能力的飞快提升,每天都有海量的轨迹数和带地点标签的签到数据以惊人的速度产生。这些数据蕴含着着人们的移动规律以及出行模式,因而高效地对轨迹数据进行存储、压缩、表征以及知识挖掘将对现有经济、环境、交通等领域产生深远影响。在商业方面,探索如何从海量的用户轨迹或签到数据中挖掘出用户喜好信息,进而向用户推荐潜在的感兴趣地点,将使人们的生活得到极大的提升,也能为不同规模的商业经济带来巨大的效益。
针对轨迹和地点数据的挖掘,研究者们根据自己的需求提出了各种轨迹压缩、表征以及地点推荐的算法。然而目前的算法在特定方面仍然存在缺陷,本文就此提出了解决方案。总观全文,本文的工作重心和创新点体现在以下三方面:
第一、目前的轨迹压缩方法多以线条约简的思想为主,没有考虑轨迹的全局语义信息。部分考虑全局语义信息的工作不能在地图上语义稀疏和缺乏的地方工作。本文提出了一种高效且鲁班的全局轨迹压缩表征方式,将整个轨迹数据集表征为一个多粒度的地点网络。该网络可根据应用的需求将已知的额外地点信息包含进来以增强轨迹的表征压缩效果。这样一方面使得轨迹稀疏的区域的轨迹表征得到矫正,另一方面也能借助大量轨迹数据来探索和理解关键地点的语义信息。最后,四个真实数据集的实验展现了提出算法的实用性与高效性。
第二、轨迹数据存在长度不一致、采样率不一致以及难以度量相似度的问题,使得在轨迹数据上的时空轨迹挖掘成为问题。结合多样化的地点挖掘需求,本文提出了一种将地点和轨迹表征成为隐向量的方法,使得地点与轨迹之间特定的语义相似度可以直接从其表征的隐向量之间的相似度中获得。这将大大提高地点检索和轨迹的效率。实验表明了该方法相对其他方法在语义检索上的优越性。
第三、在社交网络中向用户推荐地点是一项很有价值的任务,然而目前的推荐系统多以基于矩阵分解的协同过滤为主,仅仅追求推荐的准确性,而没有探究推荐后面的原因,因此缺乏解释性。针对这一缺陷,本文提出一种改进型的局部分步矩阵分解。这种方法应用在地点数据集上将让产生的推荐隐因子具有更具体的含义,从而获取用户的信赖程度,也增强了研究者对于算法的理解。实验表明本文方法不仅在推荐准确度上媲美目前最好的推荐算法,也同时具有着其他算法不具有的良好的可解释性。
针对轨迹和地点数据的挖掘,研究者们根据自己的需求提出了各种轨迹压缩、表征以及地点推荐的算法。然而目前的算法在特定方面仍然存在缺陷,本文就此提出了解决方案。总观全文,本文的工作重心和创新点体现在以下三方面:
第一、目前的轨迹压缩方法多以线条约简的思想为主,没有考虑轨迹的全局语义信息。部分考虑全局语义信息的工作不能在地图上语义稀疏和缺乏的地方工作。本文提出了一种高效且鲁班的全局轨迹压缩表征方式,将整个轨迹数据集表征为一个多粒度的地点网络。该网络可根据应用的需求将已知的额外地点信息包含进来以增强轨迹的表征压缩效果。这样一方面使得轨迹稀疏的区域的轨迹表征得到矫正,另一方面也能借助大量轨迹数据来探索和理解关键地点的语义信息。最后,四个真实数据集的实验展现了提出算法的实用性与高效性。
第二、轨迹数据存在长度不一致、采样率不一致以及难以度量相似度的问题,使得在轨迹数据上的时空轨迹挖掘成为问题。结合多样化的地点挖掘需求,本文提出了一种将地点和轨迹表征成为隐向量的方法,使得地点与轨迹之间特定的语义相似度可以直接从其表征的隐向量之间的相似度中获得。这将大大提高地点检索和轨迹的效率。实验表明了该方法相对其他方法在语义检索上的优越性。
第三、在社交网络中向用户推荐地点是一项很有价值的任务,然而目前的推荐系统多以基于矩阵分解的协同过滤为主,仅仅追求推荐的准确性,而没有探究推荐后面的原因,因此缺乏解释性。针对这一缺陷,本文提出一种改进型的局部分步矩阵分解。这种方法应用在地点数据集上将让产生的推荐隐因子具有更具体的含义,从而获取用户的信赖程度,也增强了研究者对于算法的理解。实验表明本文方法不仅在推荐准确度上媲美目前最好的推荐算法,也同时具有着其他算法不具有的良好的可解释性。