中文微博客热点话题检测与跟踪技术研究

来源 :北京交通大学 | 被引量 : 151次 | 上传用户:lihaolong2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博客作为快速分享和传播信息的新平台,具有信息量庞大、信息分散多样等特点。为了使人们不仅能获取微博客中分散的信息,而且能及时了解整个微博客中的热点话题,及时获得感兴趣话题的后续信息,本文针对中文微博客进行了热点话题检测与跟踪的研究。本文在分析主流中文微博客的信息特点和传播特点的基础上,结合国内外现有的用于普通网页的话题检测和跟踪技术,重点研究了适用于中文微博客的网页采集、信息抽取、热点话题检测以及话题跟踪技术。取得了如下四项成果:(1)提出基于时间判断的广度优先网页采集技术。通过在网页采集流程中添加时间分析器,判断一个将被采集的页面中的时间是否均早于预设的时间点,从而决定是否对该页面只进行广度采集。该方法既避免了采集过早的无用信息,提高了采集效率,又保证了采集的覆盖率。(2)提出基于空间向量模型的SP&HA聚类算法用于话题检测。根据微博客中用语灵活的特点,本文用空间向量模型表示微博客文本和话题,继而提出了SP&HA聚类算法。该算法把话题检测分为文本模型化、话题初步检测和话题合并三个环节。在话题初步检测中采用改进的Single-Pass聚类算法,提高了检测效率,在话题合并环节采用改进的凝聚式层次聚类算法,提高了话题检测质量。(3)改进了权重、相似度和热度的计算方法。提出了结合语义相似度表的特征权重和相似度计算方法。结合语义相似度表进行特征权重和相似度计算,不仅降低了一个语义多种表达形式带来的计算误差,而且保证了计算效率。另外,提出了计算博文和评论热度的函数,用于对检测到的话题和跟踪到的文本进行热度计算和排序,使检测和跟踪的结果以更合理的方式呈现给用户。(4)提出基于查询向量的自适应话题跟踪算法。针对单纯采用基于查询向量的话题跟踪算法无法解决话题漂移的问题,本文在追踪过程中不断调整查询向量,以使其适应话题的发展,同时利用网页关系、核心特征项和非核心特征项降低了噪声信息的引入量,提高了查询向量调整效果。
其他文献
注意瞬脱(Attentional Blink, AB)是在研究注意的时程问题时发现的一种现象,是一种功能盲。它要求个体对快速系列呈现的不同视觉刺激进行识别,一般会设定两个靶刺激,来考察一
政治哲学是中国传统政治哲学中的重要组成部分,而王安石的政治哲学思想又占有十分重要的地位。对王安石的研究虽然从宋代就开始了,但是历史上对王安石的学术定位却有很大的分
目的:调查在校医学生人文素质状况,了解现阶段人文教育工作的成效。方法:选取2016,2017级的医学生,通过问卷调查获取得分情况。结果:不同性别、年级、专业的医学生对自身人文
科技金融旨在支持科技型企业融资需求,推动企业技术创新发展,商业银行改善科技金融服务模式是提升其自身盈利能力的有效探索。本文以浦发银行为例,分析股份制商业银行在发展
账户交易类产品通过挂钩境外市场,为客户依据境外市场价格变动获取收益提供了一种投资渠道,具有准入门槛低、投资标的丰富、交易简便灵活、连通国内外市场等多个特点。目前对