微博用户的多维度兴趣挖掘技术研究

来源 :内蒙古科技大学 | 被引量 : 0次 | 上传用户:kisscase
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博作为一个通过关注机制分享简短实时信息的社交网络平台,吸引着越来越多用户的使用。截止到2018年,微博注册用户数已超过7亿,用户每天发布几亿条博文,海量的微博数据提供了丰富的个人信息来源。在微博平台中,用户可以发布和分享有关日常生活、新闻事件和其他感兴趣的信息,这些信息蕴含用户的兴趣信息,是挖掘微博用户兴趣主题的重要数据源。微博用户通过关注等方式形成交际圈,用户发布的微博内容通过转发等方式实时传播,这使得微博成为用户获取最新信息的重要社交媒介,微博用户的兴趣挖掘可以帮用户从海量的微博数据中获取其所需信息,为用户提供个性化推荐等服务,是当前的热门研究话题。为了更全面而准确地挖掘微博用户的兴趣主题,综合考虑微博用户的原创、转发、点赞和评论的微博内容以及背景信息等兴趣信息,本文提出了一种微博用户多维度兴趣建模的方法,该方法分别从广度和深度上多维度地挖掘出微博用户的专业兴趣、业余爱好和多级层次兴趣。首先,在LDA(Latent Dirichlet Allocation)主题模型的基础上,引入简介信息、认证信息和词汇的语义相关知识等先验知识(PK:Prior Knowledge),提出了改进的PK-LDA模型来更准确地挖掘微博用户的兴趣主题;其次从广度上通过兴趣融合挖掘出用户的兴趣类别,即用户的专业兴趣和业余爱好,从深度上通过设计层次兴趣聚类算法层次地挖掘出用户的多级层次兴趣;最后,为了更准确地识别微博用户的兴趣类别,我们构建了用户兴趣库,得到了更准确、合理的用户兴趣类别。通过python爬虫程序收集的大量真实微博用户兴趣信息的数据集上进行的实验验证了多维度兴趣建模的有效性。实验结果显示,通过兴趣融合和层次聚类算法能够准确地挖掘出微博用户的广度和深度兴趣即用户的专业兴趣、业余爱好和用户的多级层次兴趣的多维度兴趣主题;和LDA主题模型相比,改进的PK-LDA主题模型能够更准确且有效地挖掘出微博用户的兴趣主题;在微博用户的广度兴趣挖掘上,兴趣融合后的兴趣主题挖掘的准确性更高;构建兴趣库能够更准确、合理地识别出微博用户的兴趣类别。
其他文献
<正>一、机载宽带通信服务的现状机载宽带通信业务,是在确保飞机运行安全的前提下,由专业公司综合应用各种先进通信技术和飞机改装技术,部署飞机内外的网络通信平台,提供诸如
会议
为了研究德国和日本社区体育俱乐部资源现状,为我国社区体育的可持续发展提供一些有益的启示。本文采用文献资料法和数理统计法,通过国内外学者的文献以及官方网站获取数据资
“党支部建在班上”是高校党建的创新工作,当前这一工作存在着不少亟待加强的问题,运用“一年级打基础,二年级重发展,三年级建支部,四年级抓教育”的四步工作法可以较好的解决这些
根据地理学科特点和新课标的要求,遵循学生的认知规律,在借鉴他人先进的教学模式的基础上,结合教学实践构建了中学地理课堂教学的"五个一"模式,即"展示一幅图景※分析一个问
<正>小学数学是我国教育教学体系中的重要一环,对于学生逻辑思维能力和综合思考能力的提高都是非常有帮助的,近年来,随着社会的进步,我国对教育的重视程度越来越高,特别是小
利用唯一含有固定碳的可再生资源——生物质制备高附加值化学品可降低现代化工对化石资源的依存度,并缓解当前化石资源储量日益减少所带来的发展瓶颈。同时,“碳中性”的生物
<正>高校病原微生物学教学实验室是开展实验教学、培养学生创新能力的重要场所[1]。而实验教学是病原微生物学教学的重要环节,主要从事感染性生物因子操作的教学活动,涉及实
明代福建文庙祭祀在继承前朝旧制的基础上,大有发展,臻于完备。祀典的诸多类型,从孔子庙祭、启圣祠祭到名宦祠祭、乡贤祠祭等都被纳入到全国统一的规范之中,制度化程度很高。
本文认为,由于高储蓄、高投资和低消费导致中国经济严重失衡,而造成中国高储蓄、高投资和低消费的根源又在于中国金融结构的不完善,具体表现为我国金融体系的国有银行主导型