中文微博信息可信度分析方法研究

来源 :北京信息科技大学 | 被引量 : 0次 | 上传用户:LIKE0610
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网的普及与技术发展的日新月异,中国第一代微型博客服务提供商——饭否、叽歪面世以来,微博凭借其便捷性、“背对脸”形式、原创性、草根性迅速发展成为社交网络中的“宠儿”。微博用户可在任何场合下分享自己看到的、听见的、想到的人或事,而约束效力很低的微博容易造成虚假信息的泛滥。如何深度挖掘微博用户的特征信息,设计相应的实现算法,建立判定模型,为政府部门在甄别信息、理清思想、引导思潮、防止虚假信息传播等方面具有重要的现实意义。  在微博可信度分析方法的研究中,本文从统计学中的指标体系方向与机器学习中的分类算法思路分别进行了研究,目标是研究对微博信息可信度进行精确判定的技术与方法。针对可计算用户信息的权威值与短文本微博结构与内容的独特性,构建用户信息可信度模型与微博内容可信度模型,并对这两个模型的重要性进行探讨,实现对两个模型的整合,最后建立一套微博信息可信度评价系统,该系统能够根据提交的微博用户以及用户所发的微博信息,自动评价该微博的可信度。研究的重心主要包括5个方面:  1)实现微博数据采集方案,并详细论述了微博用户信息及微博内容的预处理。分析了基于传统网页与新浪平台SDK采集技术的优缺点,实现网页采集与模拟用户登录相结合的数据采集技术;对采集的微博用户信息进行指标选取、用户可信度特征分析等预处理工作,并对微博内容所提取的情感与谣言分类特征进行定性与定量处理。  2)利用指标体系建立用户信息可信度模型。从用户信息数据中,选择性的提取用户的完整度、活跃度、交际广度、传播力度四项指标组成指标体系;然后利用设计的层次分析法(AHP)结构模型,实现了对指标的权重系数数值确定,计算出每个微博用户的权威值。最终完成对用户信息可信度模型的构建。  3)多层分类器组合实现微博内容可信度模型。首先对词语进行倾向极性判别;其次提取微博文本的一元词与二元词作为贝叶斯情感分类的特征集,分类的结果结合微博的其他八项谣言分类特征(话题数、@标签数、表情符号数等)作为SVM分类器的特征集,分类结果是判断每一条微博是否为谣言。最终实现微博内容可信度模型的构建。  4)构建中文微博信息可信度综合评价模型。以用户信息可信度模型与微博内容可信度模型对用户信息的计算结果作为指标,计算两项指标对应的权重系数。最后实现中文微博信息可信度评价模型。  5)综合以上结论与研究成果,设计并实现中文微博可信度评价系统。阐述了各个子模块的设计分析与功能实现。
其他文献
组态软件是针对数据采集与过程控制的专用软件,它是使用在自动控制系统监控层一级的软件平台和开发环境,它能以灵活多样的组态方式(而不是编程方式)提供良好的用户开发界面和
关联规则是数据挖掘的一个重要研究方向,旨在挖掘项集之间的内在联系。Fp树算法是关联规则的一种基于深度的典型算法,具有良好的性能和可扩展性。Fp树通过自顶向下构造频繁树和
P2P是近些年发展起来的网络技术,目前在很多领域得到了应用,逐渐成为业界研究与关注的一个焦点。但是P2P网络发展和壮大的过程中,产生了一系列急需研究和解决的问题,其中最重要和
在几乎所有现代通讯和计算机网络领域中,安全问题都起着非常重要的作用。随着网络应用的迅速发展,对安全的要求也逐渐加强。目前影响最大的三类公钥密码是RSA公钥密码、ElGam
随着互联网走进千家万户,网络上的信息量也呈现出了前所未有的快速增长,通用搜索引擎在采集信息资源、存储索引海量网页等方面的挑战越来越大。同时,特定行业内的科研和从业
本文提出了一种计算机生成剪纸风格流水动画的方法。通过对手工剪纸作品中的流水纹样进行分析,将其分为涟漪、缓流和激流三种类型。涟漪水面平静,纹波荡漾,常见于湖面;缓流用
基于句法的统计机器翻译模型近年来成为了统计机器翻译研究的热点,相对于经典的短语模型,句法模型能够将更多的语言学知识融入翻译过程,更好的指导翻译以及重排序。本文以依
SQL注射攻击是近年来Internet网络上最流行的网站入侵方式之一,SQL注射攻击利用的是SQL语法,对于所有平台上的基于SQL语言标准的数据库软件(包括MS SQL Server,Oracle,DB2,Sybase,M
近年来,无线传感器网络的应用越来越广泛。特别它应用于野外的环境监测,如森林火灾、洪水地震、文物保护的监控。但无线传感器节点的传输距离近,在野外大规模部署的复杂环境