论文部分内容阅读
伴随着科学信息技术地快速发展,互联网与我们的生活越来越紧密相关,网民们的数量也急剧攀升,这就使得网络上出现了大量的网民用户信息。各大门户网站为了加强平台与用户之间的交流互动,出现了各式各样的网民评论信息,这使网站与用户之间出现了一条新的信息获取渠道,这些信息的出现改变了这些网站的业务流程,也对用户的思维模式产生了巨大影响。但是,随着大量的用户文本信息的涌现,如何在短时间内获得人们对于诸如人物、事件、产品、传媒等有价值有情感的评论信息,还是一个棘手的问题。因此,针对这些文本的分析成为当前网络文本分析的重要问题。文本情感分析是网络文本分析的方向之一。所谓文本情感分析,又称为意见挖掘或评论挖掘,是对带有情感色彩的文本进行处理、分析和应用的过程,它是结合现有诸多研究成果的一种具体应用,与网络社交媒体相结合,有着重要的实用价值。文本情感分析通常有两种方法:基于词典的方法和基于机器学习的方法。基于词典的方法主要是将文本中的情感词语作为特征项进行提取,再用词典判断特征词的情感极性,但该方法较依赖于词典的规模与质量。基于机器学习的方法主要使用机器学习算法来对词汇的情感极性进行判断,通过算法的训练来达到判断情感极性的目的,但该方法大多需要进行人工标注和算法训练,花费时间成本较高。基于以上相关研究背景,本文主要针对文本情感分析所做工作如下:(1)针对文本的多粒度情感分析:传统的基于词典的方法仅仅依靠特征词汇判断文本的极性,容易存在误差,所以本文将依靠多粒度思想,将文本依次划分为词语粒度、短语粒度和句子粒度,通过多个粒度信息依次计算,并通过多个粒度的计算结果联合计算来判断文本的情感极性,从而解决了仅仅依靠词汇信息判断情感极性带来噪声的问题。(2)针对情感随时间变化问题:任何情感都不是一层不变的,在事件时间和主题变化的情况下,网络事件的文本会因此出现变化,文本情感也会随之变化。因此本文提出了静态情感与动态情感两种不同状态的情感,对不同状态情感进行区分计算,并从不同主题粒度与时间维度分别判断文本的情感,并依次做出主题情感倾向数目图、不同时间情感倾向数目图与相同主题下不同时间情感倾向数目动态变化图。相较于传统的情感分析,本文模型解决了情感随主题与时间变化情况下的动态情感分析问题。