论文部分内容阅读
微博作为一个开放性的社交媒体,被越来越多的用户接受,该平台具有草根性,用户可任意发表观点、共享信息,所以其在舆论传播方面所起的作用有目共睹。微博实时推送的热点话题,以及用户转发、评论、点赞的无限制性,使消息传播的速度非常快,在这样的情况下,用户的发表的观点以博文的方式长期保留下来,个人的情绪会因为煽动和发酵而被放大,如果不及时对微博中不良的情绪进行疏导,很容易形成负面消极的舆论,甚至引发现实生活中的情绪主导型事件。所以微博管理者需要实时监控热点话题事态发展,在出现群体极性事件之前,引导舆论朝正确的方向发展。基于以上背景,本文将研究新浪微博社会和娱乐两大类热点话题的传播规律,对比两类话题在热度方面随时间增长的差异,最后选取多种方法对话题微博内容的情感极性进行分析。主要研究工作包括:第一、新浪微博热点话题有效特征的提取和话题热度公式的建立;第二、新浪微博热点话题热度曲线的绘制和拟合,话题传播规律的挖掘。本研究对新浪微博进行网络爬虫,爬取各项特征并提取出来存入EXCEL文件,按照公式计算话题热度值,并采用SPSS软件对话题热度值随时间的变化进行曲线绘制和拟合。对比两类热点话题增长曲线之间的异同,挖掘两个类话题的传播规律;第三、新浪微博热点话题博文情感极性判别。本研究采用的算法有四种:(1)基于词典的微博话题情感极性分析;(2)基于朴素贝叶斯的微博话题情感极性分析;(3)基于TextRank和词典的微博话题情感极性分析;(4)基于TextRank和朴素贝叶斯的微博话题情感极性分析。本研究的创新点有两个:第一、突破了话题热度增长趋势以自然日为时间轴的局限,提出了以话题建立时间为起始,话题发生小时数为变量,累积热度为因变量的分析方法;第二、提出了基于TextRank和词典的和基于TextRank和朴素贝叶斯的文本情感分析方法,并与传统的情感分析方法对比,分析其在正确率和效率方面的优势。