论文部分内容阅读
话题追踪是话题检测与追踪的一项子任务,目的是监控新闻报道流,识别出与已知话题相关的后续报道,是实现舆情监测不可或缺的一部分。本文主要针对传统话题追踪存在的问题做出改进,提出一种基于反馈报道的自适应话题追踪方法,并成功应用到舆情监测系统中。主要研究内容包括:1、深入研究话题追踪的关键技术,总结了话题追踪中存在的难点话题追踪中最主要的两个关键技术为文本表示方法及文本分类方法。通过分析话题的特点,发现一个话题随着时间的推移,其话题核心会不断变化,而且话题检测过程中初始聚出的话题相关报道比较少,给话题追踪造成很大的困难,因此话题模型的动态调整必不可少。2、基于命名实体改进向量空间模型,提高话题模型的准确性由于命名实体对于区分不同话题比一般的名词、动词等其他一般词语有更大的作用,因此在构建话题模型时,对命名实体的权重做了调整。本文选取了一种利用切词系统切词后的词性标识进行命名实体的识别,在特征抽取过程中对识别出的命名实体做权重调整,实验证明改进后的话题模型能更好的表示一个话题。3、提出一种基于反馈报道的话题模型特征扩展方法针对话题具有动态演化的特点,利用收集到的反馈报道,抽取反馈报道中权重较高的特征项对初始话题模型进行特征扩展,并对已存在的特征项进行权重调整,实现了话题模型动态调整,改善话题漂移造成的话题追踪准确率下降问题。4、利用动态阈值收集反馈报道,减少反馈报道中的噪声数据由于反馈报道的准确性关系着后续话题追踪的效率,有效避免反馈报道中的噪声数据至关重要,因此本文采用动态阈值收集反馈报道,该阈值的设定涉及多个参数,其中将已经收集到的反馈报道与初始话题模型的相似度作为基数,并加入相关报道和总报道的比例,有效调整阈值,防止阈值过高造成的漏报率上升,最后利用一个系数将阈值在此基础上调高,防止噪声数据。5、在前面所做研究基础上提出一种基于反馈报道的自适应话题追踪方法本文将基于命名实体的向量空间模型、话题模型的特征扩展以及收集反馈报道时的阈值动态设定引入到自适应话题追踪,改善了传统话题追踪存在的问题,有效解决了话题漂移造成的话题追踪效率下降问题,实验证明该方法提高了话题追踪的效率。6、将本文提出的自适应话题追踪方法应用到舆情监测系统,提高了舆情监测系统中热点追踪模块的效率设计并实现了舆情监测系统,实现了舆情监测中的信息采集、舆情分析和舆情呈现三大模块,并将本文提出的自适应话题追踪方法应用到热点追踪子模块,改善了系统的总体性能。