论文部分内容阅读
轨迹数据是一种常见的序列化上下文数据,其从空间和时间维度描述了用户移动轨迹信息。而对轨迹数据全面的获取、准确的挖掘与利用,是当前面向位置计算所需解决的主要问题。通过对轨迹数据的挖掘可以更深入理解用户意图,分析用户特征与环境状况,来预测行动,从而更好的为用户提供面向位置的计算服务。 近年来,通过对轨迹数据的初步挖掘可知,人类行为活动在时间与空间上的变化具有很强的规律性,并具有内在联系。通过分析用户的历史轨迹,挖掘用户的活动规律,基于此规律并结合当前上下文环境进行感知计算,可以显著提高上下文感知的交互效率和智能化程度。然而,在当前信息数据剧增的时代,活动轨迹数据的分析和应用又面临新的问题和挑战:1)多样性:在普适计算环境下,人类活动轨迹数据不仅只有位置轨迹数据,还包含社交活动记录、生理活动记录和消费活动记录等,这些数据具有海量、非结构化、多源异构、稀疏、不完整、不确定等特性,现有数据挖掘算法无法很好适应这些特性。2)局限性:现有轨迹数据较为独立,在轨迹采集时独立采用不同系统进行收集,单一的轨迹数据描述的语义信息简单,不易获取用户偏好、社会关系等信息,需多种类型轨迹数据共同挖掘实现。3)群体性:由于人类活动的具有很强群体性倾向,多个用户具有相似的活动规律,通过挖掘通用的群体性的行为特征,能弥补单一数据源数据缺失的问题,还能进行异常检测。 针对上述新问题,基于轨迹数据的时空关联计算技术是一种有效的解决方案,该方案从对多源的轨迹数据建立统一描述模型入手,提取用户的属性偏好与日常行为模式,为挖掘用户之间的关联关系以及用户与事件之间的关联关系奠定基础,从而解决轨迹数据类型的异构多样以及数据缺失关联描述的问题。基于轨迹数据的时空关联计算技术的主要内容以及研究成果包括以下几个方面: 首先,基于张量表示的多源轨迹描述模型研究。采用张量模型对多源异构的轨迹数据进行建模描述。基于张量可以对大数据环境下高维度数据进行较好的描述,本方法相比其它方法可以同时处理更多类别数据特征。 其次,用户日程例事的定义与挖掘算法研究。针对用户的轨迹行为模式挖掘问题,采用周期模式挖掘的算法,从周期性事件中识别提取用户的日程例事。日程例事的挖掘实现了对用户个人属性偏好的更深入理解,可作为职业特征的识别依据,并能为用户制订未来日程规划及异常事件检测提醒。 再次,针对高维轨迹数据间相似关联度计算的稀疏优化研究。通过一个稀疏在线相似度学习框架,设计了四种有效进行相似度学习的算法,来解决海量高维轨迹数据相似度计算问题。高效合理的相似度衡量模型为轨迹数据的聚类、检索和关联排序等应用提供了可靠的计算基础。 最后,基于众包协同的LBS(Location Based Service)云服务推荐算法研究。通过设计一种基于众包协同的方法为移动用户提供云服务推荐,来解决 LBS应用中移动云服务选择困难的问题。通过对移动用户在不同地点上下文环境下对云服务选择记录的分析,建立基于位置上下文索引的服务选择记录数据库,当新用户请求查询当前可用云服务时,返回推荐结果。整个系统方案采用众包模式对群体用户历史操作轨迹的数据进行收集,然后使用协同过滤的方法,对多源数据进行统计分析,找出并建立推理规则集。 以上提出的关联挖掘方法通过统一的建模方式,挖掘出更多类型的用户行为模式与用户内在属性,为上层应用提供了数据依据,为时空数据挖掘研究做出了一定贡献。