论文部分内容阅读
信息技术日益发展,web2.0时代也随之到来,自媒体平台也已慢慢地融进各个网民的生活中,新浪微博是典型的例子。自媒体兴起,带给了用户新体验,用户可以借助手机、QQ、微信、邮箱、网页等传播渠道发表文字信息及图片甚至是影音等多媒体信息,分享个人最新动态,把身边的实时信息与大家分享。正是这个原因,在微博中,用户有新的功能,制造信息和传播信息。信息发布、转发,既快又方便,于是微博在信息传播速率方面占有领先的位置。在微博平台上,社会上出现的突发性话题传播方式是利用微博用户间的关注关系转发。这种传播方式很容易将范围扩大到传统的媒体,最常见的传统媒体就是新闻,随之在社会上造成巨大影响。因此,基于微博的突发话题检测技术,会为及时发现社会热点、尽快感知网络民意、及早响应突发事件等方面带来积极的现实意义。基于此,本文会设计并实现一个基于传播价值的微博突发话题检测系统,主要工作涉及以下三个方面:(1)在论文的准备阶段,主要是阅读大量的文献和相关资料并对到目前为止的微博突发话题检测研究现状进行了初步了解,在掌握突发话题检测的研究背景及意义的基础上,确定了系统的需求分析,制定了系统需要实现的三个功能:信息采集、数据处理、突发话题检测。与此同时,介绍系统的功能性与非功能性需求,约束了系统开发环境。(2)本文在分析话题检测整个工作流程的基础上,考虑新浪微博具有的短文本、实时、社交性、媒体性等多个特点,保证突发词的两个特性的同时还要体现突发词的区分度,于是定义和引入了微博的传播价值,它的计算过程包含两个方面,用户影响力和微博的显著度。本文设计了基于传播价值的微博突发话题检测的算法,第一步,依照词语在时间上的变化确定候选突发词集合,第二步利用权重计算和传播价值计算结合的方式完成突发词的筛选。最后利用词共现的概率计算突发词间相似度,利用single-pass的聚类算法完成突发话题检测。(3)在系统需求分析的基础上,设计了基于传播价值的突发话题检测系统的工作流程。在系统总体架构上,分别分析两种模式C/S和B/S,B/S开发模式更适合本系统的设计;在设计系统层次方面,遵循高内聚、低耦合的原则,系统运用三层体系架构:数据访问层(DAL)、业务逻辑层(BLL)、表示层(UI);此外,系统对数据库的选择是Microsoft SQL Server 2008版本,开发语言为C#。