论文部分内容阅读
大量学者针对新浪微博和Twitter做了谣言识别的研究。传统的谣言识别是提取各维度特征,并作为输入进行有监督的分类学习。但提取的特征多为统计指标,且单个分类器即使经过调参,提升的空间也有限。基于此现状,本文在特征提取和分类算法两个方面同时进行了创新。在特征提取方面,本文创新点如下:一是构建敏感词库,引入基于敏感词库的特征。为解决微博统计特征(微博字数,粉丝人数等)作假,社交用语随意,新词、未登录词频繁出现等问题,本文构建了一个可实时更新的敏感词库辅助进行谣言识别。本文基于敏感热度L-CPBL抽词算法以及多元词串扩展算法构建了一个适用于微博类谣言检测的敏感词库。第一步是种子词集的提取,L-CPBL抽词算法是一种无词典参考的快速抽词算法,同时结合改进的LTC权重以及位置权重因子,对谣言敏感词库的种子词集的提取更准确;然后基于词向量模型空间优化以及聚类算法对种子词集进行多元扩展,最终综合得到适用于谣言的敏感词库。基于该敏感词库得到辅助谣言识别的特征项。二是引进文本语义特征。现有研究中微博特征多集中在统计特征上,忽略了文本词语之间的语义关系,上下文之间的联系。利用深度学习对文本语义进行提取,其包含了文本语义语法以及上下文环境等因素,能最佳囊括谣言的语境信息。同时将文本语义特征,敏感词库特征与统计特征进行融合,从多方面对谣言进行描述,提升后续分类的准确率。在分类算法方面,本文创新点如下:一是引入集成算法GBRT,把弱分类器(回归决策树)与梯度迭代相结合。GBRT中下一棵决策树优化的目标是基于上一棵决策树的预测值与真实值间的残差共同决定的,并且模型最终结果是将每一棵回归决策树的得分结果加和而得的。GBRT本身特性决定它能很好的处理混合类型的数据,有效的进行特征发现与组合。二是引入LSTM长短期记忆网络对谣言进行二次识别。实验证明,经过多特征融合的GBRT集成分类之后,语义相似型谣言的识别率较低。这类谣言虽然语义相似但词汇和各个统计特征差异较大,因此GBRT对这一类谣言的识别有一定的障碍。因此引入谣言二次识别,采用深度学习中的长短期记忆网络LSTM,因为它具有较强的记忆功能以及具有三道特别的“门”能够较好的解决长时依赖的问题。实验证明,将微博文本直接作为输入,通过LSTM长短期记忆网络模型的检测,能有效的提升谣言二次识别率。