论文部分内容阅读
微博客作为快速分享和传播信息的新平台,具有信息量庞大、信息分散多样等特点。为了使人们不仅能获取微博客中分散的信息,而且能及时了解整个微博客中的热点话题,及时获得感兴趣话题的后续信息,本文针对中文微博客进行了热点话题检测与跟踪的研究。本文在分析主流中文微博客的信息特点和传播特点的基础上,结合国内外现有的用于普通网页的话题检测和跟踪技术,重点研究了适用于中文微博客的网页采集、信息抽取、热点话题检测以及话题跟踪技术。取得了如下四项成果:(1)提出基于时间判断的广度优先网页采集技术。通过在网页采集流程中添加时间分析器,判断一个将被采集的页面中的时间是否均早于预设的时间点,从而决定是否对该页面只进行广度采集。该方法既避免了采集过早的无用信息,提高了采集效率,又保证了采集的覆盖率。(2)提出基于空间向量模型的SP&HA聚类算法用于话题检测。根据微博客中用语灵活的特点,本文用空间向量模型表示微博客文本和话题,继而提出了SP&HA聚类算法。该算法把话题检测分为文本模型化、话题初步检测和话题合并三个环节。在话题初步检测中采用改进的Single-Pass聚类算法,提高了检测效率,在话题合并环节采用改进的凝聚式层次聚类算法,提高了话题检测质量。(3)改进了权重、相似度和热度的计算方法。提出了结合语义相似度表的特征权重和相似度计算方法。结合语义相似度表进行特征权重和相似度计算,不仅降低了一个语义多种表达形式带来的计算误差,而且保证了计算效率。另外,提出了计算博文和评论热度的函数,用于对检测到的话题和跟踪到的文本进行热度计算和排序,使检测和跟踪的结果以更合理的方式呈现给用户。(4)提出基于查询向量的自适应话题跟踪算法。针对单纯采用基于查询向量的话题跟踪算法无法解决话题漂移的问题,本文在追踪过程中不断调整查询向量,以使其适应话题的发展,同时利用网页关系、核心特征项和非核心特征项降低了噪声信息的引入量,提高了查询向量调整效果。