论文部分内容阅读
近年来,随着互联网的迅速发展,网络应用已经成为人们获取信息的重要渠道,尤其是网络社交平台——微博。微博作为信息贡献与发布的平台,已经拥有上亿用户,用户作为微博平台的中坚力量,是微博迅速发展不可缺少的一部分。本文以新浪微博为研究对象,对用户影响力进行深入分析,提出新的用户影响力排名算法HQRank。本文研究成果可以为微博网络中舆情监控和挖掘领袖人物提供借鉴和参考。具体来讲,本文研究工作主要有以下三点:(1)微博用户影响力的研究。对微博用户行为和微博平台中信息传播方式进行研究,分析了用户的行为属性和状态属性,总结出对用户影响力评价起关键作用的四个因素分别为用户的个人属性特征、微博内容的影响、粉丝的影响以及粉丝的反馈作用。对用户影响力的定义进行了综述,从信息传播的角度将用户的影响力定义为用户通过微博行为将信息进一步传播和扩大,进而对其他用户的思想和行为起到作用的能力。(2)用户影响力评价算法HQRank。本文对PageRank算法和Influence-Rank进行分析,总结了PageRank和Influence-Rank的优缺点。考虑到两种算法在用户个体重要性评价上的缺陷,提出粉丝影响力和微博影响力两个评价指标,利用改进h指数计算粉丝质量避免僵尸粉干扰,通过转发数和评论数计算微博质量。将粉丝影响力和微博影响力作为改进PageRank算法权值矩阵的计算依据,建立了新的HQRank算法用于微博用户影响力排名。(3)利用Hadoop框架对HQRank算法进行实现。本文对Hadoop分布式框架进行原理分析,并介绍三大组件MapReduce、HDFS、YARN的工作原理。基于Hadoop并发计算的便捷性和高性能特点,利用分布式编程模型MapReduce逐步实现了HQRank算法。最后,使用Scrapy框架对新浪微博用户数据进行采集,基于该数据集对HQRank算法进行实验。将实验结果与Influence-Rank算法结果对比,证明HQRank算法结果比Influence-Rank算法更符合用户影响力定义。利用斯皮尔曼相关系数对两种排名进行相关性分析,结果表明HQRank算法结果相较于Influence-Rank算法在用户影响力评价上更具有说服力。