微博信息流中突现话题检测技术研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:zhihong0223
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自2009年国内第一个大型微博平台—新浪微博上线以来,国内微博用户的数量每年都呈井喷式增长。微博特有的用户关系结构和巨大影响力使得它已经成为网络信息传播的新势力。现在微博用户每天都会产生数百万条新微博信息,这使得难以通过人工的方法来发现海量微博信息里隐含的突现话题。如果能提出一种自动方法可以及时全面地从海量微博信息中检测出刚出现不久的突现话题,对掌握最新的网络舆论动向和维护社会稳定有着重大意义。本文对检测微博信息流中突现话题的主要关键技术进行了研究,主要研究的内容包括以下两个方面。首先,提出了一个根据突现话题的暴发特征而构建的突现关键词提取模型。该模型定义了一个名为微博流片段的数据结构,然后利用滑动窗口、分治和加权等技术来提取微博信息流中的突现关键词。实验结果表明本文提出的突现关键词提取模型可以全面准确地提取出各个时间段内的突现关键词。其次,提出了基于互信息的微博突现话题检测方法。该方法首先使用lucene的搜索技术来构建突现关键词集合的互信息矩阵,然后利用互信息矩阵来扩展一个新话题的关键词。通过不断地扩展新话题的关键词,实现对突现关键词集合中的关键词进行聚类,最后把聚类得到的各个关键词子集合作为检测出来的突现话题。实验表明该方法可以准确全面地检测出各个时间段内的突现话题。本文基于微博突现话题的暴发特征,提出了一种新的基于微博平台的突现关键词提取方法和突现话题检测方法。这两个方法可以帮助人们及时全面地发现整个微博空间里的最新突现话题,使得微博舆情监管人员可以更好地掌握和控制新生舆情,维护微博环境健康良好地运行,使社会更加和谐稳定。
其他文献
随着无线通信、嵌入式系统、分布式信息处理以及微电子等技术的快速发展,使得具有信息感知、信息处理和无线网络通信等能力的传感器节点以及由这些传感器节点构成的传感网得到
软件的高质量、高可靠性是系统开发和维护工作的一个不可或缺的重要方面,重复代码(也称为克隆代码)检测则是保证软件的高质量和高可靠性的一项重要任务。在软件系统中,重复代码的
近年来随着互联网技术的普及与飞速发展,电子商务以及政务、军工等领域也都得到跨越式发展。政府、企业和各种组织普遍构建适合自己的信道来传递公开或秘密的信息。互联网这一
随着大数据时代的到来,数据的存储安全成为了人们越来越关心的问题。而人们对于将自己的数据存储到云端的安全方面的考虑也阻碍着云存储的进一步发展。秘密共享方案在数据安全
高维数据通常含有噪音以及冗余。特别是,数据的高属性维度不仅会增加储存空间,而且属性维数在达到某一临界值后,特定数据挖掘算法的性能反而下降,即所谓的“维度灾难”。另一
本文以宁波特种设备检验检测研究院特种设备综合管理信息系统的开发为背景,主要研究系统开发过程中的需求分析、总体设计、详细设计、系统功能实现等工作。详细叙述特种设备综
互联网络的普及和云计算时代的到来,带来了网络上海量数据的存储、传输和访问,如何在这个复杂网络世界中保证数据信息访问的安全性、灵活性和高效性,已成为亟待解决的问题。属性
随着Web2.0及云计算的普及,虚拟化技术应用日益广泛。近年来,由AVM2安全漏洞引起的网络威胁逐渐增多,多个逃逸案例对互联网安全产生了严重威胁,但总体上国内外研究还不够。因
由于传统的定量模型难以全面系统地对定性定量复杂系统进行建模,而定性建模能够较好地描述复杂系统中的不确定性和不可预测性等定性行为,因此,在定量建模的基础上,需结合定性建模
随着视频图像采集设备——摄像机的广泛使用,人们对图像中肤色区域分割的研究越来越多,进而肤色检测技术也越来越多的应用到相关的各种机器视觉系统中,这也显示了肤色检测具有巨