论文部分内容阅读
随着互联网技术和移动技术的飞速发展,作为互联网媒体重要组成部分的微博迅速兴起,微博已经成为当下最流行的社交平台之一,越来越多的网民通过微博表达自己的观点和态度,尤其是结合手机移动终端,使得微博信息的分享和传播更加便捷。在此过程中,由于用户群体不一所以微博信息的内容也多样化,大量的个人观点充斥着整个互联网。对于政府、企业和网络安全等方面来说这些带有感情色彩的信息具有非常重要的意义,所以对微博这一社交媒体平台信息的检测和预警愈发重要。文本倾向性分析是对某一个话题的看法和立场进行数据挖掘和分析,从而得到该看法或评论的情感倾向是积极的还是消极的。这一技术可以广泛应用于话题分析、舆情分析、产品评论、市场调研、舆情预警等方面。目前将文本倾向性分析方法应用到微博文本分析中的系统还不多,而且微博情感倾向性分析方法还存在着准确率低,考虑不周全,缺乏对句子依存关系考虑等缺点。针对以上特点本文从微博自身特点出发,借鉴已有研究成果,改进现有的分析方法,提出一种有效的微博情感倾向性方法,最终设计并实现了微博监控系统。本文主要研究内容和创新点如下:1、研究现有的文本倾向性分析方法,主要从基于语义的文本倾向性分析技术出发,研究分析了基于词和短语模式和基于语义模式库的文本倾向性分析方法,并且对这两种方法进行了对比和总结。2、本文构建了一整套文本倾向性分析所需的情感词典,包括领域情感词典、基础情感词典、修饰副词词典、表情符号词典和网络词汇词典。提出了一种领域情感词典构建方法,使其能够自动扩展情感词库,减少了人工的干预。结合知网和汉语褒贬词典提出一种基础词典构建方法。3、结合1中方法本文提出了一种基于情感词典和短语模式的文本倾向性分析方法。首先分析了短语模式库,将短语表达方式归纳为六种短语模式,其次分析词与词之间的依存关系,最后结合情感词典和短语模式,对句子情感倾向进行计算,通过计算情感值判断情感倾向。4、本文结合网络爬虫技术、页面解析技术和文本预处理等技术提出并设计了一整套微博舆情监控系统。包括微博采集模块、分析模块和服务模块等等,最后通过系统测试表明系统符合预期的效果。