论文部分内容阅读
微博作为一个通过关注机制分享简短实时信息的社交网络平台,吸引着越来越多用户的使用。截止到2018年,微博注册用户数已超过7亿,用户每天发布几亿条博文,海量的微博数据提供了丰富的个人信息来源。在微博平台中,用户可以发布和分享有关日常生活、新闻事件和其他感兴趣的信息,这些信息蕴含用户的兴趣信息,是挖掘微博用户兴趣主题的重要数据源。微博用户通过关注等方式形成交际圈,用户发布的微博内容通过转发等方式实时传播,这使得微博成为用户获取最新信息的重要社交媒介,微博用户的兴趣挖掘可以帮用户从海量的微博数据中获取其所需信息,为用户提供个性化推荐等服务,是当前的热门研究话题。为了更全面而准确地挖掘微博用户的兴趣主题,综合考虑微博用户的原创、转发、点赞和评论的微博内容以及背景信息等兴趣信息,本文提出了一种微博用户多维度兴趣建模的方法,该方法分别从广度和深度上多维度地挖掘出微博用户的专业兴趣、业余爱好和多级层次兴趣。首先,在LDA(Latent Dirichlet Allocation)主题模型的基础上,引入简介信息、认证信息和词汇的语义相关知识等先验知识(PK:Prior Knowledge),提出了改进的PK-LDA模型来更准确地挖掘微博用户的兴趣主题;其次从广度上通过兴趣融合挖掘出用户的兴趣类别,即用户的专业兴趣和业余爱好,从深度上通过设计层次兴趣聚类算法层次地挖掘出用户的多级层次兴趣;最后,为了更准确地识别微博用户的兴趣类别,我们构建了用户兴趣库,得到了更准确、合理的用户兴趣类别。通过python爬虫程序收集的大量真实微博用户兴趣信息的数据集上进行的实验验证了多维度兴趣建模的有效性。实验结果显示,通过兴趣融合和层次聚类算法能够准确地挖掘出微博用户的广度和深度兴趣即用户的专业兴趣、业余爱好和用户的多级层次兴趣的多维度兴趣主题;和LDA主题模型相比,改进的PK-LDA主题模型能够更准确且有效地挖掘出微博用户的兴趣主题;在微博用户的广度兴趣挖掘上,兴趣融合后的兴趣主题挖掘的准确性更高;构建兴趣库能够更准确、合理地识别出微博用户的兴趣类别。