论文部分内容阅读
随着微博服务平台的快速发展,使用微博的用户数也越来越多。人们基于此传播和获取与热点事件相关的信息,这些微博的内容高度相似,信息质量参差不齐,亟需相关技术将其梳理。给定一个与热点事件相关的微博和内嵌图片集合,本文旨在检测并跟踪其主要子事件的发展,并为每个子事件选择代表性的图片。本文将事件跟踪转化为聚类跟踪,跟踪聚类随时间的发展模式。本文中将微博流建模为动态投递网络,将事件跟踪建模为在动态投递网络上的增量聚类跟踪,对基于密度的聚类算法DBSCAN进行改进,提出CDBSCAN聚类算法,使其适用于增量聚类。有一些研究是基于单点更新的增量聚类算法,为了提高效率本文采用批量更新的增量聚类算法。经过固定的时间间隔,在每一个时刻依次进行基于批量删除更新和批量添加更新的增量聚类算法,同时记录聚类的发展模式,然后基于此记录推算出在相邻时刻的聚类之间的发展模式。通过实验表明,该方法可以有效地检测出主要子事件,能够跟踪聚类发展的完整生命周期。在事件跟踪领域同时使用文本和图片的研究比较少,作者提出视觉总结算法为事件选择有代表性的图片。首先根据图片的属性过滤噪声图片,然后基于颜色直方图和边缘方向直方图用SVM训练一个噪声图片分类器,利用分类器进一步过滤噪声图片。对同一个文本聚类内部的图片使用CDBSCAN聚类,选择每一个图片聚类里面优先级最高的图片,对选择出来的图片基于热度排序。通过实验表明选择的图片与事件密切相关,有助于用户理解事件。实现了一个基于微博热点事件跟踪和视觉总结的系统。采用批量更新的增量聚类算法实现聚类跟踪,对每个事件使用视觉总结的方法选择代表性的图片。