论文部分内容阅读
自2009年国内第一个大型微博平台—新浪微博上线以来,国内微博用户的数量每年都呈井喷式增长。微博特有的用户关系结构和巨大影响力使得它已经成为网络信息传播的新势力。现在微博用户每天都会产生数百万条新微博信息,这使得难以通过人工的方法来发现海量微博信息里隐含的突现话题。如果能提出一种自动方法可以及时全面地从海量微博信息中检测出刚出现不久的突现话题,对掌握最新的网络舆论动向和维护社会稳定有着重大意义。本文对检测微博信息流中突现话题的主要关键技术进行了研究,主要研究的内容包括以下两个方面。首先,提出了一个根据突现话题的暴发特征而构建的突现关键词提取模型。该模型定义了一个名为微博流片段的数据结构,然后利用滑动窗口、分治和加权等技术来提取微博信息流中的突现关键词。实验结果表明本文提出的突现关键词提取模型可以全面准确地提取出各个时间段内的突现关键词。其次,提出了基于互信息的微博突现话题检测方法。该方法首先使用lucene的搜索技术来构建突现关键词集合的互信息矩阵,然后利用互信息矩阵来扩展一个新话题的关键词。通过不断地扩展新话题的关键词,实现对突现关键词集合中的关键词进行聚类,最后把聚类得到的各个关键词子集合作为检测出来的突现话题。实验表明该方法可以准确全面地检测出各个时间段内的突现话题。本文基于微博突现话题的暴发特征,提出了一种新的基于微博平台的突现关键词提取方法和突现话题检测方法。这两个方法可以帮助人们及时全面地发现整个微博空间里的最新突现话题,使得微博舆情监管人员可以更好地掌握和控制新生舆情,维护微博环境健康良好地运行,使社会更加和谐稳定。