论文部分内容阅读
随着互联网技术的飞速发展,人们与网络的关系日益密切。每天有大量的信息在互联网中产生和传播,其中存在着大量带有主观情感的评论信息,该信息对商家营销决策和相关部门舆情监测具有重要意义。但是评论文本通常会包含在对评价对象不同的方面的不同的情感倾向,因此常规的文档级、句子级的粗粒度文本的情感分析方法将无法进行准确的分析。根据当前需求现状,本文研究内容为针对评论文本的方面级的细粒度情感分析方法,旨在分析评论文本中特定方面的情感倾向。通过对当前性能表现较好的模型进行对比研究发现,将句子视为单词序列,word2vec训练文本词向量,采用循环神经网学习文本序列特征,能够在隐状态层获得文本有效表达;通过进一步引入注意力机制,可以过滤隐状态中与所关注的方面向量无关的信息对隐状态序列进行语义合成上下文方面情感信息,进而提高模型的分类准确率。然而,这种解决方案有以下局限。一、word2vec词向量无法表达一词多义的词特征。二、单层RNN模型存在长期依赖问题,不能有效的学习长文本的深层语义信息。并且该方法本质上为单目标分类方法,面对细粒度情感分析的多目标分类任务需要重复训练多个分类器。三、该方法忽略了方面情感间的相关关系。基于以上问题,本文提出了ELMo语境化词向量替代word2vec与基于方面情感序列生成模型的细粒度情感分类方法。本文的主要工作如下:(1)采用ELMo语境化词向量代替原有的word2vec固定词向量。利用ELMo模型的结构优势,通过隐藏层状态的线性组合结合上下文动态获取词向量,解决word2vec存在的固定词向量无法表达一词多义的问题。(2)通过分析细粒度情感分析任务特点,将细粒度情感分析任务转换成方面情感序列生成任务。设计方面情感序列生成模型:Encoder采用与ELMo相同的Bi-LSTM网络结构,能够有效地学习文本复杂语义信息。改进加法注意力机制,使用方面特征与相对距离计算加权系数。Decoder使用RNN学习标签相关性,同时实现情感序列输出。本文提出的基于序列生成模型是对细粒度情感分析新思路和新方法的一次探索。实验表明改进的情感序列生成模型相较于现有Baseline模型能够更准确的实现文本的细粒度情感分类。