论文部分内容阅读
目前,微博网络迅猛发展,微博成为网民们交流信息的主要平台之一。在微博网络中用户是主体,学者通过对微博中用户的属性和行为进行研究发现,少量的核心用户对网络的信息传播起到决定性的作用。核心用户在微博中具有较大的影响力。因此,微博用户影响力分析和演化趋势预测是网络舆情监控、智能信息处理和信息安全等领域的重要研究课题,具有理论和实际价值。本文主要研究网络用户影响力排序分析和用户影响力演化趋势预测。用户影响力排序是指对网络中用户对其他用户可能造成的影响力值进行计算并排序。针对网络用户影响力排序,本文提出和实现了一种基于IntegrationRanker的用户影响力排序分析方法、一种基于排序学习的用户影响力排序分析方法。基于IntegrationRanker的用户影响力排序分析方法对经典PageRank算法进行了改进。改进之一是在PageRank算法的初始赋值时引入了用户活跃度、粉丝认可度等用户影响力特征,改进之二是在PageRank算法迭代过程中对PageRank值的分配方式进行了改变。基于排序学习的用户影响力排序方法主要将用户影响力计算转化为排序问题,使用排序学习模型进行模型训练。用户影响力演化趋势预测问题是指将用户已有特征作为用户未来影响力排序的依据,对用户的影响力演化趋势进行预测。针对用户影响力演化趋势预测问题,本文提出和实现了一种基于时间跨度的用户影响力预测方法、一种基于话题领域的用户影响力预测方法。这两种方法的核心思想是将用户影响力预测问题转化为分类问题,采用分类模型预测用户在未来时间段或未知话题领域内的影响力排名。该方法将用户影响力的预测问题转化为TOP-K预测问题。本文在时间段数据集和主题数据集上进行实验。实验数据表明,基于IntegrationRanker的用户影响力排序方法比经典的用户影响力排序方法效果更好。同时基于排序学习的用户影响力分析方法,在使用随机森林模型时的排序效果比使用MART,RankNet和RankBoost时的排序效果更好。基于时间跨度和基于话题领域的用户影响力预测方法在使用LibSVM模型时也得到了比使用J48决策树、朴素贝叶斯和随机森林模型时更好的预测效果。实验结果表明了本文方法的有效性。