论文部分内容阅读
人类正迈入信息化时代,信息正成为重要的社会财富。随着微博等社交网络的飞速发展,其在网络舆情监控以及广告投放效果评估领域应用得越来越广泛。越来越多的学者开始关注和研究微博网络,微博网络中的信息传播机制研究和影响力评估逐渐成为研究中的热点。本文选取社交网络中使用最为广泛的新浪微博为研究对象,首先利用网络爬虫抓取原始数据,并从中提取出影响用户转发行为因素和用户节点影响力评估指标相关的数据,得到期望数据集;接着在抓取到的数据基础上建立微博消息传播模型——基于转发行为概率预测的加权有向拓扑模型;最后在建立微博消息传播模型的基础上,基于改进Page Rank算法对微博网络中的用户节点进行影响力评估研究。数据的抓取是整个研究的基础。在比较各种网页数据抓取方式的特点之后,选取能够很方便的按照自定义需求进行数据抓取的基于网页爬虫的抓取方式。在抓取到指定规模的原始数据后,根据需要将数据分为微博用户属性和微博内容属性。其中微博用户属性包括用户ID、关注数、粉丝数、微博数量以及是否为认证用户等;微博内容属性包括创建时间、是否包含特殊符号、转发数、评论数等。最后还对数据抓取过程中的关键问题特别是反爬策略等问题进行了分析和解决。在抓取到的数据集的基础上,对微博信息传播机制和传播规律进行研究,并建立基于转发行为预测的微博消息传播模型。针对当前社交网络信息传播的研究侧重于从微观层面出发,对单个用户的转发行为进行分析,而少有从拓扑层面对整个社交网络中的信息传播过程建模的研究。本文首先确定了影响转发行为的特征因素——主要是微博内容与用户兴趣、微博用户的社会关系、微博文本与用户属性以及受激活次数这四个方面。在对这四大类特征因素进行分析的基础上,利用逻辑斯蒂回归模型二分类得到节点间的信息转发概率,进而建立基于转发预测的加权有向拓扑信息传播模型,给出模型的生长演化过程,并在采集到数据集上进行验证实验。实验结果证明所构建的模型能够很好的反映微博网络的网络结构,能够较好的模拟微博网络中的信息传播过程。在构建微博消息传播模型的基础上,本文还对微博网络中用户节点的影响力评估进行了研究,改进网页重要性评估算法Page Rank以适应微博网络的特点,特别是针对算法中投票阶段和缩放机制存在的问题进行了改进。现有的影响力评估研究,一般只简单地考虑微博的转发数和评论数这两个指标的影响,但微博作为新兴的社交媒体,仅考虑微博转发数和评论数已经不能准确的评估消息影响力,因此我们需要对微博网络中消息的传播进行进一步分析,提取更多的特征因素以更好的评估用户节点的影响力。在确定影响力大小衡量指标——主要是信息传播度、传播活跃程度以及传播受众广度后,对Page Rank算法进行改进,主要是针对其投票阶段的平均分配权值的方式忽略了个体重要性差异进行改进,并确定按传播活跃程度和传播度的数值化乘积作为分配PR值的权值,以达到让传播能力强的节点获得更多的投票的目的。最后在数据集上的实验结果表明改进后的算法比原始Page Rank具有更好的命中比例。