中文微博客热点话题检测与跟踪技术研究

来源 :北京交通大学 | 被引量 : 151次 | 上传用户：lihaolong2005

【摘要】

：

微博客作为快速分享和传播信息的新平台,具有信息量庞大、信息分散多样等特点。为了使人们不仅能获取微博客中分散的信息,而且能及时了解整个微博客中的热点话题,及时获得感

【作者】

：

孙胜平

【出处】

：

北京交通大学

【发表日期】

：

2011年01期

【关键词】

：

微博客话题检测话题跟踪网页采集信息抽取

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

微博客作为快速分享和传播信息的新平台,具有信息量庞大、信息分散多样等特点。为了使人们不仅能获取微博客中分散的信息,而且能及时了解整个微博客中的热点话题,及时获得感兴趣话题的后续信息,本文针对中文微博客进行了热点话题检测与跟踪的研究。本文在分析主流中文微博客的信息特点和传播特点的基础上,结合国内外现有的用于普通网页的话题检测和跟踪技术,重点研究了适用于中文微博客的网页采集、信息抽取、热点话题检测以及话题跟踪技术。取得了如下四项成果：(1)提出基于时间判断的广度优先网页采集技术。通过在网页采集流程中添加时间分析器,判断一个将被采集的页面中的时间是否均早于预设的时间点,从而决定是否对该页面只进行广度采集。该方法既避免了采集过早的无用信息,提高了采集效率,又保证了采集的覆盖率。(2)提出基于空间向量模型的SP&HA聚类算法用于话题检测。根据微博客中用语灵活的特点,本文用空间向量模型表示微博客文本和话题,继而提出了SP&HA聚类算法。该算法把话题检测分为文本模型化、话题初步检测和话题合并三个环节。在话题初步检测中采用改进的Single-Pass聚类算法,提高了检测效率,在话题合并环节采用改进的凝聚式层次聚类算法,提高了话题检测质量。(3)改进了权重、相似度和热度的计算方法。提出了结合语义相似度表的特征权重和相似度计算方法。结合语义相似度表进行特征权重和相似度计算,不仅降低了一个语义多种表达形式带来的计算误差,而且保证了计算效率。另外,提出了计算博文和评论热度的函数,用于对检测到的话题和跟踪到的文本进行热度计算和排序,使检测和跟踪的结果以更合理的方式呈现给用户。(4)提出基于查询向量的自适应话题跟踪算法。针对单纯采用基于查询向量的话题跟踪算法无法解决话题漂移的问题,本文在追踪过程中不断调整查询向量,以使其适应话题的发展,同时利用网页关系、核心特征项和非核心特征项降低了噪声信息的引入量,提高了查询向量调整效果。

其他文献

情绪信息诱发大学生注意瞬脱的实验研究

注意瞬脱(Attentional Blink, AB)是在研究注意的时程问题时发现的一种现象,是一种功能盲。它要求个体对快速系列呈现的不同视觉刺激进行识别,一般会设定两个靶刺激,来考察一

学位

大学生注意瞬脱快速序列视觉呈现分心物

王安石政治哲学探析

政治哲学是中国传统政治哲学中的重要组成部分,而王安石的政治哲学思想又占有十分重要的地位。对王安石的研究虽然从宋代就开始了,但是历史上对王安石的学术定位却有很大的分

学位

王安石政治哲学理论基础价值意蕴

人体解剖教学中医学生人文素质现状的调查

目的:调查在校医学生人文素质状况,了解现阶段人文教育工作的成效。方法:选取2016,2017级的医学生,通过问卷调查获取得分情况。结果:不同性别、年级、专业的医学生对自身人文

期刊

人文素质解剖教学医学生

股份制商业银行科技金融服务模式研究——以浦发银行为例

科技金融旨在支持科技型企业融资需求,推动企业技术创新发展,商业银行改善科技金融服务模式是提升其自身盈利能力的有效探索。本文以浦发银行为例,分析股份制商业银行在发展

期刊

商业银行科技金融服务模式

账户交易类产品内在属性、交易架构及监管研究

账户交易类产品通过挂钩境外市场,为客户依据境外市场价格变动获取收益提供了一种投资渠道,具有准入门槛低、投资标的丰富、交易简便灵活、连通国内外市场等多个特点。目前对

期刊

账户交易类产品内在属性交易架构监管现状

中文微博客热点话题检测与跟踪技术研究

其他学术论文