论文部分内容阅读
随着互联网信息时代的到来,信息数据呈现爆发式增长,传播方式也更为多元化。其中,微博作为新媒体的代表已经成为社会热点传播的重要平台。在研究热点事件传播过程中,如何界定事件中用户的行为和属性特征,成为人们在分析舆情动态、挖掘潜在客户时越来越关注的问题。由于网络热点更新迭代迅速、数据产量庞大、内容类别繁杂,我们需要研究快速高效的数据获取模型来跟踪热点事件,采集相关用户信息和微博内容信息存入数据库。微博用户分类可以归结为用户标签挖掘以及标签相似度计算的问题,如何通过用户相关特征生成用户标签是实现用户分类的关键。同时,为了避免机器用户对分类结果的影响,我们需要先过滤掉无关用户特别是水军用户,提升分类推荐的效果。针对以上问题,本文的主要工作和研究内容如下:1.通过对比当前各种网络爬虫框架的性能以及研究微博反爬虫规避策略,提出一种组合Selenuim和Scrapy框架的分布式爬虫,一定程度上提升了数据获取的稳定性,并通过多线程提高数据获取速度。2.目前对于水军识别的研究存在的问题包括:(a)对于水军特征的描述不够准确;(b)水军自我伪装能力不断加强,行为和属性特征更趋于常态化;(c)微博数据庞大,维度高。对此,本文提出基于转发人属性等新特征的水军识别模型来过滤水军用户,引入的特征因子还包括情感波动指数、信息完整度等,比较朴素贝叶斯、贝叶斯网络以及随机森林算法在引入新特征后识别性能上的提升。3.提出基于个性标签和关系链的用户分类模型。通过用户兴趣挖掘方法找出用户的兴趣词作为用户的部分标签,从关系链用户中提取另一部分标签,将这两部分标签组合成新的用户标签向量,计算用户标签向量之间的相似度实现用户分类,为定制性用户推荐提供更可靠的依据。4.本文使用Flask框架设计一套网络热点挖掘及用户分类推荐系统来实现整个流程,更人性化地展示分析结果,为挖掘客户提供便利的平台。