论文部分内容阅读
微博一词对于如今的社会而言并不陌生,从最开始的腾讯博客到现在妇孺皆知的新浪微博,它的出现给人们生活的方方面面带来了巨大的变化。对于当今的信息化时代而言,微博可以帮助我们有效获取多方面的信息,让我们做到足不出户就可以知晓天下事,很多热点新闻和消息都可以通过微博获悉,我们还可以选择性地特别了解自己想要关注的东西,在国内,新浪微博已然成为社交网络平台的数据流量“大户”。与此同时,事物客观具有的双面性也暗示了信息量巨大的微博中潜在的负面因子,也就是我们平时觉得让人厌烦、扰人视线、炒作热度的个人账号,人们称之为网络水军。网络水军的具体定义是在网络里针对某些既定的内容发表相似评价的、不为表达个人观点而为收取佣金的网络推手。他们最显著的特征就是发表评论的内容相似,关注的用户数多,个人拥有的粉丝数少。我们更多地这些网络水军简称为水军或网络雇佣枪手,这些所谓的水军一般来说经常活跃在某些电子商务网站、大小论坛以及微博等网络社交平台里。他们会假装成普通的网民或网络用户,通过发布不实消息、对某一观点进行相似模式的回复、散播不良博文等行为影响平常普通网民的良好网络体验。在网络社交越来越发达的今天,从网络安全角度出发,发现并控制网络水军对于维护互联网和社交网站安全、还原信息网络本来面貌,防止网络暴力的发生具有非常重大的意义。本文旨在研究如何找出这些水军,基本思路是通过在微博里成千上万的杂乱评论中找出类似的评论,对具有这些相似评论的网络用户进行数据提取和相关统计,再结合其定位信息、发表的博文内容、关注人数和粉丝数之比,通过算法分析找到网络水军。这一过程分为五大部分,包括提取数据、分析数据、算法训练等。此过程将在本文第三章到第六章体现:第一部分主要介绍了本文的研究中需要用到的一些微博用户关系特征的选取及各特征值的含义;第二部分涉及到的就是数据提取方法,具体通过模拟登陆微博的方式体现;第三部分开始对于用户特征值进行提取,对数据集进行分类以及数据初步处理的方法;第四部分是基于聚类的微博水军识别算法,其中重点介绍了特征值的选取以及所运用的算法介绍,同时通过实验分析来判断是否可行;第五部分通过SVM算法导出核函数,实现最终的水军识别。