基于敏感词库的微博谣言识别研究

来源 :中南财经政法大学 | 被引量 : 0次 | 上传用户:yrrej86
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大量学者针对新浪微博和Twitter做了谣言识别的研究。传统的谣言识别是提取各维度特征,并作为输入进行有监督的分类学习。但提取的特征多为统计指标,且单个分类器即使经过调参,提升的空间也有限。基于此现状,本文在特征提取和分类算法两个方面同时进行了创新。在特征提取方面,本文创新点如下:一是构建敏感词库,引入基于敏感词库的特征。为解决微博统计特征(微博字数,粉丝人数等)作假,社交用语随意,新词、未登录词频繁出现等问题,本文构建了一个可实时更新的敏感词库辅助进行谣言识别。本文基于敏感热度L-CPBL抽词算法以及多元词串扩展算法构建了一个适用于微博类谣言检测的敏感词库。第一步是种子词集的提取,L-CPBL抽词算法是一种无词典参考的快速抽词算法,同时结合改进的LTC权重以及位置权重因子,对谣言敏感词库的种子词集的提取更准确;然后基于词向量模型空间优化以及聚类算法对种子词集进行多元扩展,最终综合得到适用于谣言的敏感词库。基于该敏感词库得到辅助谣言识别的特征项。二是引进文本语义特征。现有研究中微博特征多集中在统计特征上,忽略了文本词语之间的语义关系,上下文之间的联系。利用深度学习对文本语义进行提取,其包含了文本语义语法以及上下文环境等因素,能最佳囊括谣言的语境信息。同时将文本语义特征,敏感词库特征与统计特征进行融合,从多方面对谣言进行描述,提升后续分类的准确率。在分类算法方面,本文创新点如下:一是引入集成算法GBRT,把弱分类器(回归决策树)与梯度迭代相结合。GBRT中下一棵决策树优化的目标是基于上一棵决策树的预测值与真实值间的残差共同决定的,并且模型最终结果是将每一棵回归决策树的得分结果加和而得的。GBRT本身特性决定它能很好的处理混合类型的数据,有效的进行特征发现与组合。二是引入LSTM长短期记忆网络对谣言进行二次识别。实验证明,经过多特征融合的GBRT集成分类之后,语义相似型谣言的识别率较低。这类谣言虽然语义相似但词汇和各个统计特征差异较大,因此GBRT对这一类谣言的识别有一定的障碍。因此引入谣言二次识别,采用深度学习中的长短期记忆网络LSTM,因为它具有较强的记忆功能以及具有三道特别的“门”能够较好的解决长时依赖的问题。实验证明,将微博文本直接作为输入,通过LSTM长短期记忆网络模型的检测,能有效的提升谣言二次识别率。
其他文献
<正>目前,我国各地市的广播电台的节目中采编播合一形式的主持人节目比较多,但也有许多节目是主持人自己无法独立完成的,这就需要主持人、编辑、记者、技术人员等相互配合、
新闻与人们的生活有着密切的关系,从理论上来说,新闻就是对新近发生的事实进行详细的报道,它的特性就是通过各种途径向人们传递信息。本文主要是将时政新闻与民生新闻结合在
和谐的医患关系是和谐社会的重要组成部分。然而近年来医疗纠纷频繁发生,医患关系日益紧张,除了医疗体制不完善、医院管理不正规、法律监管有缺失等原因之外,媒体报道对于医
《走近科学》是中央电视台第一个大型科普栏目。十多年来,其发展也引领着此类节目的发展,它的节目特色值得认真研究。本文主要从电视话语强权、专家系统和知识碎片等三个方面
随着教育改革的不断发展与深入,初中信息技术教学也迎来了新的变革与创新,传统的教学模式已经无法满足现阶段学生的发展需求。特别是在素质教育背景下,如何能够充分发挥学生
文章介绍了以海水作为冷却介质的换热器中一种以爆炸复合钛钢板作管板、以钛管作换热管的换热管与管板焊接的工艺评定及生产制作中的焊接工艺。文章为钛制换热器的生产制造提
钛制热交换器换热管与管板的焊接工作量大,且焊接时焊道容易氧化。为了防止氧化,采用小电流慢速焊;为了防止氩气流失快,在换热管内放置铜堵,增加保护效果。这样做虽然能保证
<正>统筹利用国际国内两个市场两种资源一直以来是我国农业的基本政策。我国农业贸易体量巨大,已成为全球第二大农产品贸易国。目前,大豆、食糖、棉花等农产品,中国都是全球
聚合物/层状矿物纳米复合材料结合了聚合物的强韧性与纳米层状矿物的强力学性,具有优良的力学性能、热学性能、气体阻隔性能和导电性能等,实际应用广泛。介绍了聚合物/层状矿
电视节目主持人的语言驾驭能力最能体现自身的语言智慧,不但考验主持人的控场能力,还有即兴表达能力和临场应变能力。在简述电台节目主持人语言驾驭能力的重要性和特点的基础