基于改进LDA模型的社交网络用户行为分析

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:lwb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,以微博为代表的社交网络已经成为用户发布和获取实时信息的重要手段。网络信息的爆炸性增长,一方面带来了更多消息来源,另一方面使得获取实用信息的难度加大。通过有效的手段,精准地发现、组织和利用社交网络海量短文本背后隐藏的有价值的信息,分析研究用户的行为特征,不仅具有较高的舆情监控和商业推广价值,还有助于互联网的综合管理。本文以国内主流社交网站新浪微博为研究对象,对微博数据采集和用户行为特点进行深入的研究,主要贡献和创新之处如下:1.微博信息爬虫系统。本文设计并实现了一种基于改进布隆过滤器的新浪微博信息爬虫系统,该系统主要针对布隆过滤器误识率问题进行改进,提供了一种高效的URL去重方案,解决URL去重效率低的问题,同时解决了新浪微博用户数据获取和存储问题。2.异常用户行为分析。根据爬取到的微博用户数据,分析异常用户的行为特点。对LDA模型进行改进,设计适用于处理用户关系数据的UR-LDA模型。利用UR-LDA模型对词化后的微博垃圾用户特征进行降维和聚类。3.用户关注话题分析。由爬虫系统获取的用户数据挖掘出用户关注的话题。首先用中文分词系统ICTCLAS对用户微博数据进行分词和去停用词处理,然后利用UR-LDA模型进行主题挖掘,最后对用户进行聚类分析。在实验过程中,本文将基于改进的布隆过滤器和传统的布隆过滤器过滤器进行分析和比较,结果表明,本文设计的爬虫系统具有更高的URL去重效率,爬取微博数据更加高效。通过LDA模型对和UR-LDA模型对微博主题挖掘效果对比,实验结果表明UR-LDA能更加有效地挖掘出用户关注的话题。
其他文献
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
土地利用/覆被变化是导致流域水资源发生变化的重要原因.以中国西北地区的洮河流域为研究区,构建适宜于洮河流域的分布式水文模型(SWAT),在综合考虑流域1985-2000年间土地利用/
目的探究注射富血小板血浆(PRP)与透明质酸治疗膝骨关节炎的临床应用效果。方法以50例膝骨关节炎患者为对象,研究时间为2018年8月-2019年8月,分为参照组25例与研究组25例,参
4月8日,辉县市吴村镇柳湾村春意盎然。村东头的一条乡村道路上,机声隆隆,一台挖掘机正紧张作业,村“两委”班子成员正忙着测量土方。$$“董书记,您什么时候回来的?”看到驻村第一书
报纸
目的探讨脾切除联合贲门周围血管离断术治疗肝硬化门脉高压症患者门静脉血栓(PVT)的预测措施。方法2017年1月~2019年3月我院肝胆外科诊治的肝硬化并发门脉高压症患者60例,均
目的本文主要研究动态心电图与常规心电图在冠心病诊断中的应用价值。方法将我院300例冠心病患者平均分成对照组与实验组,各75例,对照组给予动态心电图检查,实验组给予常规心
乳腺癌是女性最常见的恶性肿瘤,乳腺癌的靶向治疗研究已经成为乳腺癌治疗领域研究的热点,是继手术、放疗和化疗三大传统模式之后一种全新的生物治疗模式。本文主要对近年来靶向
近年来,中央银行数字货币(以下简称"CBDC")备受关注。基于各国研发CBDC的驱动因素、方法和技术不同,本文分析了各国研发CBDC项目的驱动因素,对各国CBDC政策框架和设计方法进