基于Flask框架的微博用户分类及推荐系统的实现

来源 :厦门大学 | 被引量 : 0次 | 上传用户：chen406507025

【摘要】

：

随着互联网信息时代的到来,信息数据呈现爆发式增长,传播方式也更为多元化。其中,微博作为新媒体的代表已经成为社会热点传播的重要平台。在研究热点事件传播过程中,如何界定

【作者】

：

曾思亮

【出处】

：

厦门大学

【发表日期】

：

2017年期

【关键词】

：

微博爬虫 Selenuim工具水军检测用户分类 Flask框架

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网信息时代的到来,信息数据呈现爆发式增长,传播方式也更为多元化。其中,微博作为新媒体的代表已经成为社会热点传播的重要平台。在研究热点事件传播过程中,如何界定事件中用户的行为和属性特征,成为人们在分析舆情动态、挖掘潜在客户时越来越关注的问题。由于网络热点更新迭代迅速、数据产量庞大、内容类别繁杂,我们需要研究快速高效的数据获取模型来跟踪热点事件,采集相关用户信息和微博内容信息存入数据库。微博用户分类可以归结为用户标签挖掘以及标签相似度计算的问题,如何通过用户相关特征生成用户标签是实现用户分类的关键。同时,为了避免机器用户对分类结果的影响,我们需要先过滤掉无关用户特别是水军用户,提升分类推荐的效果。针对以上问题,本文的主要工作和研究内容如下:1.通过对比当前各种网络爬虫框架的性能以及研究微博反爬虫规避策略,提出一种组合Selenuim和Scrapy框架的分布式爬虫,一定程度上提升了数据获取的稳定性,并通过多线程提高数据获取速度。2.目前对于水军识别的研究存在的问题包括:(a)对于水军特征的描述不够准确;(b)水军自我伪装能力不断加强,行为和属性特征更趋于常态化;(c)微博数据庞大,维度高。对此,本文提出基于转发人属性等新特征的水军识别模型来过滤水军用户,引入的特征因子还包括情感波动指数、信息完整度等,比较朴素贝叶斯、贝叶斯网络以及随机森林算法在引入新特征后识别性能上的提升。3.提出基于个性标签和关系链的用户分类模型。通过用户兴趣挖掘方法找出用户的兴趣词作为用户的部分标签,从关系链用户中提取另一部分标签,将这两部分标签组合成新的用户标签向量,计算用户标签向量之间的相似度实现用户分类,为定制性用户推荐提供更可靠的依据。4.本文使用Flask框架设计一套网络热点挖掘及用户分类推荐系统来实现整个流程,更人性化地展示分析结果,为挖掘客户提供便利的平台。

其他文献

磁致伸缩导波检测技术应用分析

为确保桥梁的安全运营,本文基于实际工程,利用磁致伸缩导波检测技术,对大桥吊杆进行内部锈蚀断丝专项无损检测。在无损检测结果的基础上,选取波形相对较差最有可能锈蚀断丝的

期刊

磁致伸缩导波检测吊杆

利用时间平滑技术估计相干信号二维波达方向

时间平滑技术可以用来解决相干信号源的波达方向估计，但现有的算法只适合于一维波达方向估计，不能直接扩展到二维。在均匀圆阵的基础上，本文把时间平滑技术推广应用于二维波达方

期刊

均匀圆阵模式激励法时间平滑波达方向多径

“弹性离校”试行之争

<正>10月22日,南京市教育局发出《关于小学实行"弹性离校"办法的通知》。从11月1日起,南京市的小学对正常放学后按时离校确有困难的小学生,可由家长依照学校相关规定自愿提出

期刊

弹性离校双职工家庭学生安全教育局

钠—葡萄糖协同转运蛋白2抑制剂达格列净对2型糖尿病治疗的临床应用研究

目的:研究使用达格列净治疗的2型糖尿病患者的治疗结果(糖化血红蛋白HbA1c,空腹血糖FPG,体重)的变化。同时探讨达格列净治疗2型糖尿病患者的安全性。方法:选取2017年5月至201

学位

钠-葡萄糖协同转运蛋白2抑制剂达格列净2型糖尿病

基于Flask框架的微博用户分类及推荐系统的实现

其他学术论文