论文部分内容阅读
伴随着互联网的普及与技术发展的日新月异,中国第一代微型博客服务提供商——饭否、叽歪面世以来,微博凭借其便捷性、“背对脸”形式、原创性、草根性迅速发展成为社交网络中的“宠儿”。微博用户可在任何场合下分享自己看到的、听见的、想到的人或事,而约束效力很低的微博容易造成虚假信息的泛滥。如何深度挖掘微博用户的特征信息,设计相应的实现算法,建立判定模型,为政府部门在甄别信息、理清思想、引导思潮、防止虚假信息传播等方面具有重要的现实意义。 在微博可信度分析方法的研究中,本文从统计学中的指标体系方向与机器学习中的分类算法思路分别进行了研究,目标是研究对微博信息可信度进行精确判定的技术与方法。针对可计算用户信息的权威值与短文本微博结构与内容的独特性,构建用户信息可信度模型与微博内容可信度模型,并对这两个模型的重要性进行探讨,实现对两个模型的整合,最后建立一套微博信息可信度评价系统,该系统能够根据提交的微博用户以及用户所发的微博信息,自动评价该微博的可信度。研究的重心主要包括5个方面: 1)实现微博数据采集方案,并详细论述了微博用户信息及微博内容的预处理。分析了基于传统网页与新浪平台SDK采集技术的优缺点,实现网页采集与模拟用户登录相结合的数据采集技术;对采集的微博用户信息进行指标选取、用户可信度特征分析等预处理工作,并对微博内容所提取的情感与谣言分类特征进行定性与定量处理。 2)利用指标体系建立用户信息可信度模型。从用户信息数据中,选择性的提取用户的完整度、活跃度、交际广度、传播力度四项指标组成指标体系;然后利用设计的层次分析法(AHP)结构模型,实现了对指标的权重系数数值确定,计算出每个微博用户的权威值。最终完成对用户信息可信度模型的构建。 3)多层分类器组合实现微博内容可信度模型。首先对词语进行倾向极性判别;其次提取微博文本的一元词与二元词作为贝叶斯情感分类的特征集,分类的结果结合微博的其他八项谣言分类特征(话题数、@标签数、表情符号数等)作为SVM分类器的特征集,分类结果是判断每一条微博是否为谣言。最终实现微博内容可信度模型的构建。 4)构建中文微博信息可信度综合评价模型。以用户信息可信度模型与微博内容可信度模型对用户信息的计算结果作为指标,计算两项指标对应的权重系数。最后实现中文微博信息可信度评价模型。 5)综合以上结论与研究成果,设计并实现中文微博可信度评价系统。阐述了各个子模块的设计分析与功能实现。