论文部分内容阅读
社交媒体能够满足人们的信息和情感需求,而当发生灾害时,这种需求会变得更加迫切,并且从整体上来说,社交媒体提供的数据是动态、实时的、由用户自发产生的。作为社交媒体的代表,微博可以在实时信息和情感两个方面作为传统灾害信息提取方法的一个重要补充。灾害相关微博数据的处理是一种对时效性非常敏感的数据处理任务,其需求者往往期望能够尽快地获知被处理的数据和处理的结果。因此,考虑到微博数据具有流数据的性质,本文面向中文微博领域,围绕微博数据的获取、预处理、信息提取、提取结果统计、统计结果可视化的完整流程,设计并实现了基于微博流的灾害信息提取系统,该系统在微博数据获取引擎和微博分析引擎的支持下提供灾害相关微博流数据的信息提取功能。在灾害微博数据的获取和预处理方面,本文针对微博数据的特点,设计并实现了微博抓取策略和预处理方法。首先以爬虫的方式抓取灾害相关的新浪微博数据,提供了微博用户主页数据、微博搜索结果历史数据、微博搜索结果实时数据三种数据获取途径;然后对抓取到的灾害微博数据进行预处理,包括数据清洗、中文分词等,为信息提取准备好数据来源。在灾害微博信息提取方面,本文提出了灾害相关微博数据的文本分类和情感分析方法,为信息提取流程提供模型支持。本文采用基于FastText模型的文本分类方法和基于词典的情感分析方法,可以用于执行微博文本分类和情感分类任务。本文使用实现的原型系统的微博数据获取引擎获取了两组实验数据,基于实验数据进行了方法的评价。在上述方法实现的基础上,本文设计了基于微博流的灾害信息提取系统框架,并基于Spark分布式计算框架对微博数据获取引擎和分析引擎进行原型系统的实现,原型系统能够对灾害相关微博流数据进行文本分类和情感分类,并对分类结果进行时序统计,对统计结果进行可视化输出。本文使用实验数据对系统的可视化功能进行了展示。