论文部分内容阅读
近年来,人群的流动性和其真实社交网络之间的关系在学术界和企业界引起了很大的关注。在过去,想要追踪人们的行径从而了解人群流动性并且获取相应的数据是一件非常困难的事情,因此,这成为了人群流动性和其真实社交网络之间关系的相关研究难以展开的主要原因。然而,随着信息时代的高速发展,各种带有GPS定位功能的移动设备和基于位置的社交网络服务相继出现并得到了十分广泛的使用。如今,我们可以通过这些设备和服务相对简单得获取大量用户的时间以及地点信息。这类信息有着十分重要的价值和用途。对这些信息加以处理和分析,我们可以获得某些特定用户的重要个人信息,比如兴趣爱好、行踪记录、真实生活下的社交圈等。本文关注的问题是如何根据两个特定用户的时间地点信息(签到数据)推断他们之间是否存在朋友关系。由于存在朋友关系的两个人通常会出现在类似或者相同的地方,因此本文认为两个人出现在同一个地点的次数以及地点个数都是判断两个人是否是朋友的重要影响因子。除此之外,两个人出现在同一地点先后间隔的时间也是影响推断结果的重要因素。通过对从以上的信息中抽取出的数据进行机器学习,本文构造了两个模型用以推断两个用户之间是否存在朋友关系。模型一仅仅通过分析两个用户共同出现的一个地点内的时间地点信息来进行朋友关系的推断。我们考虑了该地点多维的签到次数信息、该地点的特征值以及两个用户的签到时间间隔信息,并用时间间隔序列这一概念对两个用户在同一个地点的多次共同出现的签到时间间隔进行更加全面的衡量。该做法更加全面得囊括了签到数据中的有效信息,并以此建立朋友关系推断模型。该模型旨在在签到数据有限的情况下得到一个相对更加准确的推断结果。模型二是通过分析两个用户所有共同出现地点内的时间地点信息来推断他们的关系。我们使用了共同出现地点的个数、共同出现次数、地点特征和多维签到时间间隔等信息,并提出加权共同出现地点个数和加权共同出现次数这两个概念,将地点特征值作为权重来调整发生在不同地点的共同出现的重要性。该模型的推断结果比当前最优秀的基于位置的朋友关系推断模型的推断结果更加精确和有效。