基于半监督学习的社交网络用户属性推测

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:lixuelei19890117
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的发展,在线社交网络已经成为人们相互联络,发表观点,及分享消息的主要途径。比如Facebook、Flickr、人人网、开心网等。通常社交网络中的用户会提供一些个人信息如:性别、年龄、大学、专业、兴趣爱好等。这些属性是用户组成小组,分享内容,成为好友的基础。然而现实中并不是每个用户都提供了完整的用户信息。  本次研究要解决的问题就是:在已知社交网络中一些用户的属性信息的情况下,是否能预测那些隐藏的用户属性?换句话说就是我们能否利用社交网络的图结构,及图中一些已知信息,推测出那些用户的隐藏属性。虽然当前的社交网络设计了一些策略来防止用户隐私信息的泄漏,但是这些策略还都不够完善。用户的个人信息,公共组信息及好友关系,都可以用来推测用户的隐藏的属性。以往的关于用户隐私推测的研究多是基于有监督学习的。然而在线社交网络通常包只含少数的公开信息称其为标记数据,现实中我们较容易获得的往往是大量的隐含数据称其为未标记数据。由于社交网络用户数据的这一特点,使得传统的有监督学习方法并不能很好的解决这一问题。最近半监督学习方法在标记数据较少的数据集上得到了广泛的应用。本课题把在线社交网络中的用户属性推测作为研究对象,采用半监督学习方法中的局部全局一致性方法推测用户属性。将利用在线社交网络中用户的个人属性,交友关系,和组关系来推测用户的隐私属性。本文的主要贡献有三点:第一,我们分析了社交网络用户数据的分布、结构及连接特点选择半监督学习方法中的基于图的算法。第二,在用户节点的权值计算上根据用户节点的标记与否,采用不同的权值计算方法。第三,分析了用户的个人属性,公共组信息,及好友关系,对不同用户属性推测结果的影响。最后我们选择人人网用户数据进行实验。实验结果证明了如下几点:第一,利用半监督学习的方法解决用户属性推测问题,比用有监督学习方法更有效率。第二,我们的权值计算策略,比以往的权值计算方法能取得更好的正确率。第三,用户的个人属性,公共组信息,及好友关系,对不同用户属性推测结果的影响不同。
其他文献
虚拟实验是教育领域的一个研究热点,为实验教学改革提供了一条新思路,与传统的实验相比有经济、安全、不受时空限制和教学一体化等优点。对于中学化学来说,信息技术在教学中
最近几年PDA和其他触屏终端用户使用数量每年都在剧增。这使得用户对更加高效的、适应用户自身书写习惯的手写识别算法的需求也更加迫切。而用户书写笔迹自适应技术将会为针
社会网络是指社会个体成员之间因为互动而形成的相对稳定的关系体系[1]。经过研究发现社会网络具有高度的社区特性,社区内部成员间联系相对紧密,不同社区间的成员联系相对稀
近年来,随着计算机与多媒体的迅猛发展,图像逐渐成为人们获取信息的重要渠道。然而,图像在获取和传输过程中,不免会受到干扰,使得图像质量退化。因此,对失真图像进行复原显得
随着嵌入式领域的快速发展,使得以前只应用在大型设备如飞机、火箭、轮船上的GPS(Global Positioning System全球定位系统)技术进入了人们生活。嵌入式设备体积小、效率高、
生物水质自动监测方法目前被广泛应用于水体的质量监测和安全预警中,其特点是利用水生生物的生理特性以及对不同水质的行为特性反应水体质量的变化以及水体污染的程度,从生物
相对数值运算而言,符号运算是一种推理过程,有助于解决具体问题,利于揭示事物内涵规律,因此符号运算更是对数学的高度概括和抽象,而当前对积分符号运算并没有规律可循,对某些
随着计算机应用技术的不断发展,传统的采用鼠标、键盘或触摸屏幕作为交互手段的人机交互技术已不能完全满足人们当前的需求,而以自然语言、手势语言和面部表情语言为代表的多
无线传感器网络作为一种新的信息获取方式和处理模式,目前己经逐渐成为国内外学者研究的热点。无线传感器网络包含成百上千的传感器节点,每一个节点有感知环境、执行简单的计算
聚己内酯(PCL)是由ε-己内酯开环聚合制得的热塑性聚酯,由于PCL的熔点较低,热稳定性和水解稳定性优良,与多种聚合物的相容性很好等诸多优点,与其他脂肪族聚酯相比有着广阔的