论文部分内容阅读
随着近几年微博,电子商务网站兴起,用户及网络评论的数量呈爆炸性的增长。这些评论中包含对产品,热点事件等的评判和分析,对于商家的产品改进和政府的舆情监控及政策制定有着重要的价值和意义。其中文本的情感倾向分类就是近几年兴起的一个研究热点。文本情感倾向分类是一个二元分类,即判断文本是含褒义色彩还是贬义色彩。由于情感表达的复杂性,究竟哪些词性的词语含有更多的情感色彩,对分类帮助更大,本文对此将进行详细的探讨。对于跨领域的文本情感分类研究,本文也改进了一种情感词典和特征学习结合的算法,主要的研究成果包括以下几个方面:①研究了不同词性构成的停用词表对文本情感分类的影响,采用了7种停用词表,在三个语料库上,分别对无监督的基于情感词典的分类方法和有监督的特征学习方法进行了详细的实验及分析,结果表明对于基于情感词典的分类方法,采用形容词,动词,副词除外的词性的词语作为停用词分类结果较好,传统的文本主题停用词对分类结果基本无影响,而对于有监督的特征学习方法,形容词,动词,副词,名词对分类结果的帮助最大,不使用任何停用词时取得的分类效果较好。②改进了一种情感词典和特征学习相结合的跨领域文本情感分类算法,文本情感分类方法主要分为两种:无监督的基于情感知识的方法和有监督的特征学习的分类方法。前者不需要已标注文本,简单易实现,分类精度低;后者分类精度高,但需要大量标注数据,不利于跨领域。Tan等人提出了一种将情感词典和特征学习结合起来的算法,本文将其算法中使用的台湾大学NTU情感词典用PM(IPointMutual Information,点互信息)算法构建的情感词典代替,发现分类结果更好,其后详细的分析了结果产生的原因以及算法中参数变化对分类结果的影响。