中文微博信息可信度分析方法研究

来源 :北京信息科技大学 | 被引量 : 0次 | 上传用户：LIKE0610

【摘要】

：

伴随着互联网的普及与技术发展的日新月异，中国第一代微型博客服务提供商——饭否、叽歪面世以来，微博凭借其便捷性、“背对脸”形式、原创性、草根性迅速发展成为社交网络中的

【作者】

：

刘清松

【机构】

：

北京信息科技大学

【出处】

：

北京信息科技大学

【发表日期】

：

2015年期

【关键词】

：

微博信息数据采集可信度分析评价指标体系

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

伴随着互联网的普及与技术发展的日新月异，中国第一代微型博客服务提供商——饭否、叽歪面世以来，微博凭借其便捷性、“背对脸”形式、原创性、草根性迅速发展成为社交网络中的“宠儿”。微博用户可在任何场合下分享自己看到的、听见的、想到的人或事，而约束效力很低的微博容易造成虚假信息的泛滥。如何深度挖掘微博用户的特征信息，设计相应的实现算法，建立判定模型，为政府部门在甄别信息、理清思想、引导思潮、防止虚假信息传播等方面具有重要的现实意义。　　在微博可信度分析方法的研究中，本文从统计学中的指标体系方向与机器学习中的分类算法思路分别进行了研究，目标是研究对微博信息可信度进行精确判定的技术与方法。针对可计算用户信息的权威值与短文本微博结构与内容的独特性，构建用户信息可信度模型与微博内容可信度模型，并对这两个模型的重要性进行探讨，实现对两个模型的整合，最后建立一套微博信息可信度评价系统，该系统能够根据提交的微博用户以及用户所发的微博信息，自动评价该微博的可信度。研究的重心主要包括5个方面:　　1)实现微博数据采集方案，并详细论述了微博用户信息及微博内容的预处理。分析了基于传统网页与新浪平台SDK采集技术的优缺点，实现网页采集与模拟用户登录相结合的数据采集技术;对采集的微博用户信息进行指标选取、用户可信度特征分析等预处理工作，并对微博内容所提取的情感与谣言分类特征进行定性与定量处理。　　2)利用指标体系建立用户信息可信度模型。从用户信息数据中，选择性的提取用户的完整度、活跃度、交际广度、传播力度四项指标组成指标体系;然后利用设计的层次分析法(AHP)结构模型，实现了对指标的权重系数数值确定，计算出每个微博用户的权威值。最终完成对用户信息可信度模型的构建。　　3)多层分类器组合实现微博内容可信度模型。首先对词语进行倾向极性判别;其次提取微博文本的一元词与二元词作为贝叶斯情感分类的特征集，分类的结果结合微博的其他八项谣言分类特征（话题数、@标签数、表情符号数等）作为SVM分类器的特征集，分类结果是判断每一条微博是否为谣言。最终实现微博内容可信度模型的构建。　　4)构建中文微博信息可信度综合评价模型。以用户信息可信度模型与微博内容可信度模型对用户信息的计算结果作为指标，计算两项指标对应的权重系数。最后实现中文微博信息可信度评价模型。　　5)综合以上结论与研究成果，设计并实现中文微博可信度评价系统。阐述了各个子模块的设计分析与功能实现。

其他文献

计算机控制系统面向对象组态软件研究与实现

组态软件是针对数据采集与过程控制的专用软件,它是使用在自动控制系统监控层一级的软件平台和开发环境,它能以灵活多样的组态方式(而不是编程方式)提供良好的用户开发界面和

学位

面向对象组态软件面向对象组态软件计算机控制系统控制算法

Fp树算法的研究以及在入侵检测中的应用

关联规则是数据挖掘的一个重要研究方向，旨在挖掘项集之间的内在联系。Fp树算法是关联规则的一种基于深度的典型算法，具有良好的性能和可扩展性。Fp树通过自顶向下构造频繁树和

学位

关联规则入侵检测数据挖掘Fp树算法

基于模糊理论的P2P信任模型的研究

P2P是近些年发展起来的网络技术，目前在很多领域得到了应用，逐渐成为业界研究与关注的一个焦点。但是P2P网络发展和壮大的过程中，产生了一系列急需研究和解决的问题，其中最重要和

学位

计算机网络对等网络网络管理网络安全

基于FPGA的加密算法的研究与实现

在几乎所有现代通讯和计算机网络领域中,安全问题都起着非常重要的作用。随着网络应用的迅速发展,对安全的要求也逐渐加强。目前影响最大的三类公钥密码是RSA公钥密码、ElGam

学位

超椭圆曲线密码FPGA有限域标量乘软硬协调设计

垂直搜索引擎系统的研究与设计

随着互联网走进千家万户,网络上的信息量也呈现出了前所未有的快速增长,通用搜索引擎在采集信息资源、存储索引海量网页等方面的挑战越来越大。同时,特定行业内的科研和从业

学位

垂直搜索引擎倒排索引网络爬虫搜索策略主题相关性

计算机生成剪纸风格流水动画

本文提出了一种计算机生成剪纸风格流水动画的方法。通过对手工剪纸作品中的流水纹样进行分析,将其分为涟漪、缓流和激流三种类型。涟漪水面平静,纹波荡漾,常见于湖面;缓流用

学位

剪纸动画流水模型非真实感绘制

依存文法在汉英统计机器翻译中的应用

基于句法的统计机器翻译模型近年来成为了统计机器翻译研究的热点,相对于经典的短语模型,句法模型能够将更多的语言学知识融入翻译过程,更好的指导翻译以及重排序。本文以依

学位

依存文法句法分析机器翻译

针对SQL注射攻击的一种集成防御策略

SQL注射攻击是近年来Internet网络上最流行的网站入侵方式之一，SQL注射攻击利用的是SQL语法，对于所有平台上的基于SQL语言标准的数据库软件(包括MS SQL Server，Oracle，DB2，Sybase，M

学位

SQL注射攻击URL重写ASP.NET系统集成检测/防御/备案模型(DDL模型)IDP_SQLIA系统

面向数据采集的无线多跳轮询网络的设计与实现

近年来,无线传感器网络的应用越来越广泛。特别它应用于野外的环境监测,如森林火灾、洪水地震、文物保护的监控。但无线传感器节点的传输距离近,在野外大规模部署的复杂环境

学位

多跳无线轮询数据采集无线传感器网络

中文微博信息可信度分析方法研究

其他学术论文