论文部分内容阅读
主题发现与跟踪(TDT)一直是国内外网络信息处理研究的一个热点,具有广泛的应用前景。本课题的研究目标是通过博客实时发现并跟踪国内外热点事件,以实时地反馈给用户。由于传统文本聚类算法很少专门面向主题进行聚类,因而不能很好解决热点事件发现与跟踪问题,使得热点事件发现与跟踪大多数都仅限于研究阶段,难以具有实用价值。本文针对博客热点实时发现与跟踪这一任务提出了一种准确高效的新算法。该算法主要包括三个步骤:首先,我们提出了一种新的相似度计算方法,以根据所有文章的标题的关键词聚类,这既能提高算法的实时性,又能充分突出博客文章标题的重要价值。其次,对于第一步中产生的所有标题簇,我们识别出那些含有热点主题的标题簇以对它做进一步的事件挖掘,并将该标题簇中与该主题无关的文章给删除掉。如果一个标题簇中没有任何事件占主导地位,我们可以识别并删除它。最后,针对事件模板中的噪音,在删除某个标题簇中所有与主题事件不相关的文章后,更新事件模板,并用这个干净的事件模板去数据集中挖掘所有与该事件主题相关的文章或追踪该事件。为了对本文的算法进行评测,我们根据新浪专题事件构造了两种数据集,数据集一包含13252篇各种类型的网页,包含28个事件;数据集二是只包含博客的1589篇网页,包含40个事件。实验表明,本算法针对数据集一的召回率和精度分别为87.73%和95.04%,针对数据集二的召回率和精度分别为82.37%和92.18%。通过与传统聚类算法的实验对比显示,本文的方法大大优于其他传统聚类算法,能够满足实际应用需求。基于上述算法,本文实现了一个针对博客热点实时发现与跟踪的系统并提供了热点事件的自动编辑、整理与推荐功能,该系统目前已经持续运行了近120天,收集整理了超过1000个热点事件及相关的文章7万多篇,通过对人工进行相关性标注的648个事件的近两万篇文章的统计结果表明,该系统的精度达到了84%,从而为将来替代人工编辑,节省人力资源并保持热点事件的及时、全面、准确报道打下了坚实基础。