论文部分内容阅读
近年来,社交媒体的快速发展为人们获取事件、新闻等信息带来了巨大的便利,成为了人们从事网络活动的重要工具。社交媒体账户作为用户在社交媒体上获取信息、发表言论和沟通交友的重要媒介,包含了大量有价值信息,通过对社交媒体账户进行分析可以有效地将具有共性特征的用户识别为一个集合。有效的用户分类方法不仅可以快速地帮助用户发现感兴趣的信息,同时还能实现可靠的社交媒体管理以及个性化的内容和用户推荐。通常,社交媒体中用户所发送或关注的信息往往来自多个主题,仅仅对这些用户进行单标签分类会漏掉很多其他主题信息,而通过对用户进行多标签分类,可以更加全面地描述用户的多语义属性。然而,现有的多标签分类算法研究大都针对于文本和图片等领域,针对用户进行多标签分类的研究较少。另外,现有的多标签用户分类算法没有实现用户的有效表征,直接将其用于社交媒体场景下难以实现较好的用户分类效果。本文通过对复杂的社交网络进行分析,在对用户进行单标签分类研究的基础之上实现了用户的多标签分类,主要贡献如下:(1)对于用户单标签分类问题,提出了基于异质网络的用户半监督分类方法。在网络构建阶段,考虑到社交媒体中包含了多种信息,通过构建异质网络可以有效地对这些信息进行融合,从而更好地描述真实社交场景。在特征提取阶段,通过分析网络中用户之间交互行为背后的意义,提取了用户关系特征和特殊词频特征;通过分析用户的发推行为,提取了用户实体关系特征。在模型训练阶段,本文借鉴了半监督学习的思想来实现模型的训练,在减少了对训练集需求的同时提升了用户分类的准确性。在实际场景中,通过与现有的一些用户分类方法进行对比,发现本文所提出的算法能有效的提高分类性能。(2)考虑到异质网络在用户分类问题上的有效性,本文在基于异质网络的用户单标签分类方法基础之上,加入了重叠社团检测技术,提出了基于重叠社团检测的用户多标签分类方法。通过对网络中的用户进行重叠社团检测并将社团检测结果用于用户的表征,可以有效地评估一个用户同时属于多个标签的分布情况,同时还能对没有直接相连的用户进行相似度表征。在多标签分类器的选取上,本文选用ML-KNN多标签分类算法来实现模型的训练。在实际场景中,通过与现有的多标签分类方法进行对比,发现该算法能有效的适用于社交媒体用户多标签分类任务。