论文部分内容阅读
随着网络的发展,在线社交网络已经成为人们相互联络,发表观点,及分享消息的主要途径。比如Facebook、Flickr、人人网、开心网等。通常社交网络中的用户会提供一些个人信息如:性别、年龄、大学、专业、兴趣爱好等。这些属性是用户组成小组,分享内容,成为好友的基础。然而现实中并不是每个用户都提供了完整的用户信息。 本次研究要解决的问题就是:在已知社交网络中一些用户的属性信息的情况下,是否能预测那些隐藏的用户属性?换句话说就是我们能否利用社交网络的图结构,及图中一些已知信息,推测出那些用户的隐藏属性。虽然当前的社交网络设计了一些策略来防止用户隐私信息的泄漏,但是这些策略还都不够完善。用户的个人信息,公共组信息及好友关系,都可以用来推测用户的隐藏的属性。以往的关于用户隐私推测的研究多是基于有监督学习的。然而在线社交网络通常包只含少数的公开信息称其为标记数据,现实中我们较容易获得的往往是大量的隐含数据称其为未标记数据。由于社交网络用户数据的这一特点,使得传统的有监督学习方法并不能很好的解决这一问题。最近半监督学习方法在标记数据较少的数据集上得到了广泛的应用。本课题把在线社交网络中的用户属性推测作为研究对象,采用半监督学习方法中的局部全局一致性方法推测用户属性。将利用在线社交网络中用户的个人属性,交友关系,和组关系来推测用户的隐私属性。本文的主要贡献有三点:第一,我们分析了社交网络用户数据的分布、结构及连接特点选择半监督学习方法中的基于图的算法。第二,在用户节点的权值计算上根据用户节点的标记与否,采用不同的权值计算方法。第三,分析了用户的个人属性,公共组信息,及好友关系,对不同用户属性推测结果的影响。最后我们选择人人网用户数据进行实验。实验结果证明了如下几点:第一,利用半监督学习的方法解决用户属性推测问题,比用有监督学习方法更有效率。第二,我们的权值计算策略,比以往的权值计算方法能取得更好的正确率。第三,用户的个人属性,公共组信息,及好友关系,对不同用户属性推测结果的影响不同。