【摘 要】
:
在科技日新月异的时代,随着互联网在全世界的普及,人们获取信息的途径已经从传统媒体,如报刊、杂志、电视、广播等途径转变为网站、论坛、博客等。特别是伴随着Web2.0时代的到来
论文部分内容阅读
在科技日新月异的时代,随着互联网在全世界的普及,人们获取信息的途径已经从传统媒体,如报刊、杂志、电视、广播等途径转变为网站、论坛、博客等。特别是伴随着Web2.0时代的到来,微博等即时、社交类的媒体正在飞速发展。人们从微博上快速地获取信息已经成为了一种趋势。为了厘清微博这种新媒体形势与传统媒体的差别,了解到两种媒体上讨论事件时,哪些话题是普遍的,哪些话题是特有的,相同的话题在内容与关注度上的趋势有什么样的不同,相同的话题在表达上有什么差异。我们借助统计概率模型,结合传统媒体与微博在文本上的特征,提出了一种基于LDA话题模型的微博与传统媒体上话题对比研究的方法。本文提出的方法首先利用LDA模型对特定事件的微博与新闻报道语料按时间先离散进行建模,将话题的语义信息抽取出来。接着,本文提出了根据文档字数设置权值的关注度计算方法,计算各话题的关注度,了解每个话题在两种媒体上被关注的程度,两种媒体关注度高的是哪些话题,哪些话题是特有的。然后,利用Jenson-Shannon距离,计算相同话题在相邻时间段上的演化度,得到演化路径,分析演化路径上话题在内容和关注度上的趋势变化,并对比相同话题在微博与新闻报道上的表现差异。最后,提出了一种基于公有词汇的不同媒体上话题的同一性识别方法,对同一时间段上不同媒体上的相同话题计算差异度,观察词汇的差异程度。通过实验发现在事件发生的时间周期内,评论性话题在微博受到的关注度较高,且一直维持较高,一般为0.18左右,在新闻报道上关注度较低,一般为0.13左右。在微博上持续时间长,内容变化小,演化度一般为0.7左右,在新闻报道上不一直持续,内容变化大,演化度一般为0.78左右。在微博与新闻报道上词汇差异大,差异度一般为0.6左右;事实性话题在新闻报道上受到关注度高,一般为0.2左右,且一直维持较高,在微博上关注度较低,一般为0.15左右。在新闻报道与微博上均持续时间较长,内容变化较大,演化度一般为0.75左右。在新闻报道与微博上词汇差异小,差异度一般为0.45左右。
其他文献
互联网是个巨大的信息资源库,从这个资源库中提取和检索出有用信息是个很重要的课题。搜索引擎是通用的信息检索服务。 搜索引擎一般由Crawler、索引库、检索器和用广接口
当今世界是一个信息时代,不管是在移动社交还是在移动电子商务、物联网平台,PUSH(推送)技术都得到了很大的应用,另外,Push技术改变了传统的“拉”信息的方式,使信息主动寻找用户,更适
本文使用语言学中的标志词假设来指导汉英翻译单元的抽耿,取得了较好的抽取效果。本文从以下三个角度对标志词在汉英EBMT中的应用进行了研究:1.在介绍了目前已经使用的英语
数字签名是信息安全领域的一个重要的研究方向。数字签名能保证报文的真实性、完整性以及签名者的不可否认性。普通的数字签名具有局限性,一旦密钥被盗,攻击者就可以伪造签名
针对近年来地理信息系统(GIS,Geographic Information System)在公共管理,科学研究和商业等领域的应用现状和配电管理的实际需求,本文以配电网GIS系统的开发为背景,根据配网管理自身的特点,讨论了适合于配电网络的空间数据组织方式,重点研究了适合配电网GIS系统的空间索引结构。 随着GIS在各个领域的广泛应用,GIS已形成了多层次和不同尺度的应用格局。既要有综合型的通
本文在项目反应理论(IRT)框架下,就目前流行的参数估计方法进行分析比较;对IRT中3PLM的参数估计问题,用传统的统计估计方法解决得并不令人满意,我们应用新的估计方法——改进
统计学习理论是一种专门研究有限样本情况下机器学习规律的理论,它不仅考虑了对推广能力的要求,而且追求在现有有限信息的条件下得到最优结果。支持向量机是在统计学习理论的基
分布式数据库系统是数据库系统与计算机网络相结合的产物,它主要研究在计算机网络上如何进行数据的分布和处理。对于查询操作,若是在分布式环境中,由于查询涉及的关系通常被
随着网络系统的规模扩大,网络的异构性、应用的广泛性和复杂性,以及网络服务等方面的增长,网络系统的有效管理变得越来越重要,也越来越困难。就网络系统的故障管理功能而言,管理者
我们现在生活在一个网络化的新时代,通信、计算机和网络技术正改变着整个人类和社会。目前大多数分类算法适用于集中式环境,当伴随着大量的数据集、用户和系统上的地理分布时