论文部分内容阅读
兴趣点(Point of Interest)是地理信息系统中的一个术语,泛指一切可以抽象为点的地理对象,尤其是一些与人们生活密切相关的地理实体,比如餐馆、商场等。本研究课题所涉及到的兴趣点特指研究的国内旅游景点。旅游景点的热度预测旨在根据景区特色分析其在后续一定时期内的热度变化趋势,基于社交媒体信息和用户行为发掘景点特征能有效满足针对用户的个性化定制需求,为进一步的路线规划提高准确度。同时,分析现实数据发现,存在各大景点游客数分布不均匀的情况,大部分景区游客稀少,然而这些所谓冷门景点的网站评分分值较高,这意味着这些“不受欢迎”景点的游览价值可能被大大低估了。本研究可以为挖掘非热门景点隐藏的商业价值提供参考信息。热度预测及其相关应用的研究目前主要集中在网络内容的预测上,比如微博,推特上的用户转发评论内容等。大多数研究都很少关注兴趣点本身热度变化趋势预测的方向。而涉及到景点热度预测的相关工作也主要围绕信息量较大的兴趣点进行推荐,忽略了信息量匮乏但具有潜力的景点或新兴景区对旅游趋势的显著影响。同时,由于真实环境下景点差异大、某些景点信息稀缺而带来的景点数据分布不平衡问题目前也没有行之有效的解决方法。针对现实世界中的景点热度预测的研究目前存在如下亟待解决的问题:1)社交媒体中大量景点的描述信息非常稀疏,即使在被人们广泛使用的网站中,很大一部分景点也只有少量的视觉和/或相关文字描述,数据的稀缺与数据不平衡问题会给研究带来极大挑战。2)不同类型的兴趣点在视觉外观和/或文本描述方面可能非常相似,这在对景点进行分类识别的时候可能存在偏差。例如,仅仅依靠某个景点图片信息,即使肉眼都很难辨别这个景点是属于市区公园还是蔬果采摘园。类似的这种兴趣点在现实数据中很多,而传统方法难以区分这种视觉(语义)歧义。3)目前很少有研究能够有效整合多源异构信息并融合多模态特征来统一表征兴趣点数据。针对上述瓶颈,本文提出一种综合了多视图学习、深度学习等技术的异构多线索层级结构模型,该模型能够同时整合景点的语义信息和多模态表示,自上而下分为“主题层”、“兴趣点层”、“特征层”和“标签层”。为了有效地实现兴趣点建模,前两层充分利用语义信息,完成景点的文本表征及初分类;第三层利用多线索表示进行景点异构特征融合;第四层作为规则统一层制定规则策略并最终输出对景点的热度预测结果。在多线索特征处理中,本文采用了传统的基于特征拼接的早期融合方法(early fusion)、基于特征投影的后期融合方法(late fusion)和基于深度多视图学习的几种特征融合策略。为了模拟真实环境来进行更准确的模型评估,本文收集了2006年至2018年中国四个主流旅游平台上四川省的景点数据构建多源景点真实数据集。大量实验结果证明了所提出的多线索层级模型具有良好的景点热度预测性能。