论文部分内容阅读
微博客的出现形成了一种新的媒介现象,使得人们对当下的政治、经济、体育、娱乐等方面的消息有了更及时、更深刻的了解。四面八方的言论更对受众的思想行为产生了巨大的导向作用,其中受大V用户的影响最为明显,这里的大V用户所指的是具有很高影响力的用户,该类用户所发起的讨论和话题极具影响力在社会上,甚至可以这么说,这些大V用户极大程度上的引领并制造了当下社会的热门话题。因此,对微博用户影响力的探究是个值得深入的研究方向。本文将分析用户影响力评估标准指出传统的用户影响力Page Rank算法在计算微博用户影响力中的不足,并提出了一个新的影响力WB-UR算法。互联网的高速发展让世界进入了大数据时代,“大数据”一词在各行各业的领域中都是被讨论的话题,而本文研究所需要的数据来源于新浪微博中海量用户数据,从而进行微博用户影响力的研究。本文将使用便捷、高效的Hadoop分布式计算平台进行数据处理和算法实现的。本文首先对Hadoop平台及其相关技术理论进行了详细介绍,如:HDFS、Map Reduce、HBase。接着讲述了目前评估微博用户影响力的Page Rank算法背景应用和算法原理,然后本文通过详细分析微博网络的用户和行为特性,发现只考虑了追随者数量这个因素的Page Rank算法在微博用户影响力的评估中存在着很大的缺陷,Page Rank算法在用户分配影响力值的过程中是以粉丝的关注数进行均分,却忽略了用户之间的行为,如:转发、评论、点赞,这三个因素对用户的影响力有着不同大小的作用,因此僵尸粉的存在使得Page Rank算法难以有效、合理的对用户影响力进行排名。本文则以微博用户关注、转发、点赞、评论这四个主要行为因素在用户之间影响力分配过程中的所占权重作为切入点,提出了一种基于Page Rank算法改进的算法—WB-UR(Wei Bo-User Rank)算法。本文是使用Hadoop平台实现WB-UR算法,在HBase中设计了两张数据表,存放的是本文算法所涉及到的数据。接着使用Sqoop工具将数据导入HBase设计好的表中以便于高效提出实现算法所需数据。最后,本文在搭建成功的Hadoop平台上分别实现Page Rank算法和WB-UR算法,接着分别对Page Rank算法和WB-UR算法的实验结果进行对比分析后,验证了WB-UR算法相对于Page Rank算法的用户影响力排名更加符合实际情况,优化后的WB-UR算法在用户影响力的评估上比Page Rank算法有着更全面、有效、可靠性高的优点。