论文部分内容阅读
在我们的日常生活中,互联网是越来越普遍,人们使用互联网的频率也在快速上升的,比如大家可以通过网页或者微博来上网,观看其他人发表的言论,自己也可以在上面发表相应的评论。每天都有大量的有意义的评论产生的,我们可以从这些评论中来感知发表人的信息,同时也可以知道发表人的观点想法等等。的在中国,有很多关于情感分析方面的研究,于是也就有人开始对微博中的评论展开研究了。我们在搜集了大量的微博研究的相关文献之后,发现目前使用最多的研究方法有情感词典的方法,也就是通过构建相应的微博情感词典,进而来分析微博评论的极性;还有一种方法是采用机器学习的方法,也就是通过一些构建模型,通过模型来判断文字的正负的。我们都知道的,中华文化源远流长,是非常丰富的,语言含义非常丰富,比英文单词的复杂性要高很多,很多单字与组成的词意思相差很多,对于有很多个有关系的单词组成的词语的含义,有时使用一些模型算法的效果并不是很好。另一方面,在情感极性的分类过程中,基于情感词典的分类方法几乎没有在乎到微博话题领域的词汇,从而影响了情感分类结果的正确性。目前,在国内,鲜有文献对微博的情感分析有很深入的研究,比如通常会忽视发表言论的人的情感强度,另外一些算法也稍有欠缺,同时对于特征项也很难准确提取。在搜集了其他研究者对于微博评论研究的文献并仔细查阅之后,发现采用情感词典的方法对于情感分析研究是一个不错的选择,另外由于微博有它自己的特殊性,与其他评论研究会有一点不同,所以我们建立了专属于微博的情感词典,选择相关的微博评论,提高情感分类的准确率。我们在获得相关的评论文本之后,首先要对它进行预处理,使其方便后续的研究,然后,使用我们专属于微博的情感词典,对其进行特征提取等操作,和相应的处理消极词汇、程度副词、微博表情符号、情感词和评价对象的微博评论。最后,将采用一些算法公式,对前面已经处理好的数据进行正负分类,达到一个准确的分类效果。我们将会在微博上挑选一些热点话题,实验数据包含生活、交通事故、微博话题领域的科学和技术三个领域,最后的结果通过实验验证是比较合理的。