论文部分内容阅读
随着互联网技术的不断发展,微型博客等新形态交互方式为信息的发布和共享提供了新的平台,但同时充斥着大量的虚假、色情、反动信息,严重影响了人们对网络的正常使用和信息获取。如何对微博中的不良信息进行监控,成为亟待解决的问题。本文针对微博短文本进行舆情分析,提出了一种基于名词的微博短文本语义相似度计算方法。首先,提取微博中的所有名词;其次,利用《知网(Hownet)》义原的树状结构计算微博短文本间名词的距离;最后,通过提取相似度最高的名词对来计算微博相似度。在微博相似度计算基础上,对微博进行聚类分析,通过改进基于免疫的动态聚类算法,使聚类结果中抗体集合能够准确描述所属类的内容,同时适应不断增长的微博数据。在舆情分析阶段,通过对聚类的抗体集合整理得到话题信息,通过增量聚类算法及时发现新话题。在中等规模微博数据集测试中,本文提出的微博相似度算法能够准确判断微博主题含义,同一类别微博相似度90%以上分布在0.6-1.0之间,可为后续微博聚类服务。在大规模的微博聚类实验中,本文提出的改进算法能够较为有效地聚类,并支持微博新话题的发现和热点话题的预警。对聚类结果的分析亦能够帮助话题的分析和理解。