论文部分内容阅读
当前,随着数据挖掘与机器学习技术的不断发展,情感分析技术已经越来越受到人们的关注。情感分析可以应用于多个领域,包括舆情分析、商品评论分析等等,具有较大的商业价值与研究价值。本文的主要研究目标是句子级别的倾向判断,即给定一个句子,判断其所包含的情感含义是正倾向还是负倾向。本文的主要研究工作和成果:(1)首先,调研分析了当前情感倾向性分析的研究现状,重点调研了基于句法规则的方法和基于机器学习的方法,并分析了两种算法的优缺点。基于此,提出了本课题的研究框架:实现基于句法规则的基线系统,提出了改进的情感特征向量化方法以及其应用。(2)基于句法规则算法设计并实现了一个针对产品属性的情感分析系统。整个系统的处理包括以下四个子模块:实时预处理模块、词典生成模块、产品属性聚类模块、情感强度计算模块。该系统能够有效地分析亚马逊网站的英文商品评论数据。(3)针对句法规则算法的不足,提出了结构化情感特征向量空间模型(SEVSM)。该方法将句法依赖树简化为情感标签三元组,并将所有的三元组表示成情感特征向量。该方法的优点在于,既能够充分利用句法规则,又可以将非结构化的情感信息结构化,有利于直接采用各种机器学习算法。(4)通过COAE评测以及实验分析验证,设计并实现了基于SEVSM的情感分析算法。首先将SEVSM应用于各种传统的分类器;其次采用PCA、MDA以及tf-idf模型进行特征空间优化;然后对比了不同的先验情感强度量化信息下的系统性能;最后,针对上述分析,设计和实现了最优化的SEVSM,并同第三章的基线系统进行了对比。实验结果表明:第一,直接使用SEVSM进行情感分析能够取得不错的效果;第二,通过适当的优化可以改进SEVSM的性能;最后,SEVSM相对于传统的方法具有更优越的性能。