基于聚类算法的网络水军检测研究

来源 :江西农业大学 | 被引量 : 1次 | 上传用户:jy860500
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博一词对于如今的社会而言并不陌生,从最开始的腾讯博客到现在妇孺皆知的新浪微博,它的出现给人们生活的方方面面带来了巨大的变化。对于当今的信息化时代而言,微博可以帮助我们有效获取多方面的信息,让我们做到足不出户就可以知晓天下事,很多热点新闻和消息都可以通过微博获悉,我们还可以选择性地特别了解自己想要关注的东西,在国内,新浪微博已然成为社交网络平台的数据流量“大户”。与此同时,事物客观具有的双面性也暗示了信息量巨大的微博中潜在的负面因子,也就是我们平时觉得让人厌烦、扰人视线、炒作热度的个人账号,人们称之为网络水军。网络水军的具体定义是在网络里针对某些既定的内容发表相似评价的、不为表达个人观点而为收取佣金的网络推手。他们最显著的特征就是发表评论的内容相似,关注的用户数多,个人拥有的粉丝数少。我们更多地这些网络水军简称为水军或网络雇佣枪手,这些所谓的水军一般来说经常活跃在某些电子商务网站、大小论坛以及微博等网络社交平台里。他们会假装成普通的网民或网络用户,通过发布不实消息、对某一观点进行相似模式的回复、散播不良博文等行为影响平常普通网民的良好网络体验。在网络社交越来越发达的今天,从网络安全角度出发,发现并控制网络水军对于维护互联网和社交网站安全、还原信息网络本来面貌,防止网络暴力的发生具有非常重大的意义。本文旨在研究如何找出这些水军,基本思路是通过在微博里成千上万的杂乱评论中找出类似的评论,对具有这些相似评论的网络用户进行数据提取和相关统计,再结合其定位信息、发表的博文内容、关注人数和粉丝数之比,通过算法分析找到网络水军。这一过程分为五大部分,包括提取数据、分析数据、算法训练等。此过程将在本文第三章到第六章体现:第一部分主要介绍了本文的研究中需要用到的一些微博用户关系特征的选取及各特征值的含义;第二部分涉及到的就是数据提取方法,具体通过模拟登陆微博的方式体现;第三部分开始对于用户特征值进行提取,对数据集进行分类以及数据初步处理的方法;第四部分是基于聚类的微博水军识别算法,其中重点介绍了特征值的选取以及所运用的算法介绍,同时通过实验分析来判断是否可行;第五部分通过SVM算法导出核函数,实现最终的水军识别。
其他文献
本论文主要包括文献综述和临床研究两个部分。 文献综述共两篇。第一篇回顾了近年来国内外对本病的基础和临床研究进展。主要从机理研究和治疗方面进行了论述。对于发病机
【正】一、问题的提起《至正条格》提到了顺帝元统二年(1334)四月二十八日,中书省官员与顺帝之间有关将前朝拨赐于蒙元贵族及寺院的田产重新收回的讨论。其文曰:"户部官俺根
本文对欧美国家和我国在饭店集团的形成、发展动因、历史进程方面进行了系统的比较 ,指出了世界著名饭店集团在经营管理方面的共同特点与优势。本文着重分析了我国饭店业的基
<正>习主席深刻指出,要扭住能打仗、打胜仗这个强军之要,坚持一切建设和工作向能打胜仗聚焦。这一重要指示,深刻揭示了军队建设的客观规律,阐明了能打胜仗在强军目标中的核心
<正>《中国共产党章程》规定:"每个党员,不论职务高低,都必须编入党的一个支部、小组或其他特定组织,参加党的组织生活,接受党内外群众的监督。党员领导干部还必须参加党委、
目的:研究幽门螺杆菌(Helicobacter pylori,Hp)感染、血清胃蛋白酶原(pepsinogen,PG)亚群含量及胃液胃蛋白酶含量与胃癌的关系。方法:研究对象为对照组20例,疾病组127例,其中慢性浅表
<正>提高自主创新能力,走开放式办学道路,是我国大学目前面临的重要课题。近些年来,德国大学科学研究的开放性、国际化特征日益凸显,笔者在德国研修期间深有感受。
<正>2018年12月26日上午9时34分,北京交通大学一实验室发生爆炸,事故造成3名参与实验的学生死亡。2016年9月21日,上海某高校的一所生物实验室发生爆炸,2名学生受重伤,随后校
一、研究的目的和意义随着社会的进步,人们越来越认识到,经济发展的目标不仅在于提高经济增长率,更重要的是提高人们的生活质量和全社会的福利水平。因此,世界各国在认识到经济发
故障现象一辆2017款奔驰E200,底盘号为LE4213142,搭载274型发动机和9速自动变速器,行驶里程为9 901km.车主反映该车仪表台左侧的氛围灯不亮.故障诊断与排除接车后和车主一起