论文部分内容阅读
文本情感分析,作为自然语言处理领域的一个重要分支,致力于从大量的非结构化文本中提取用户的意见,并根据其情感倾向进行分类。其中,基于规则和情感词典的方法比较繁琐,而传统机器学习的方法需要人工设计的特征,有待进一步改进。近年来,深度神经网络和词向量的应用,使得情感分类的效果大幅提升,但依然存在一些缺陷,模型的训练也需要大量的带标签数据。针对现有的一些问题,本文以网络用户评论数据为研究对象,主要做了以下两部分工作:(1)提出结合情感词典与注意力机制的长短期记忆网络(ALE-LSTM和WALELSTM)。虽然词向量可以捕获词语的语义和语法信息,但在情感分类任务中,仅用词向量难以准确表示单个的词语。由于词向量是根据外部语料库中词与词之间的共现关系训练得到的,如果两个词语有相似的上下文,即使他们带有不同情感倾向,也可能有相似的词向量表示。单个词语的情感表示不准确则会对文本整体情感倾向的预测造成影响。本文提出的模型首先使用情感词典来训练一个词情感分类器,利用该词情感分类器获得词的情感向量。然后,组合每个词的情感向量和原始的词向量作为LSTM最终的输入。并且,为了改善LSTM模型偏向于保存最近输入的信息,而不能保存长历史间隔的输入信息的问题,提出了带注意力机制的通用情感分类模型,以便有选择地保存文本中重要的情感信息用于分类。实验表明,ALE-LSTM和WALE-LSTM模型可以获得更高的情感分类准确率。(2)提出基于模糊与自动编码器的领域对抗模型(Fuzzy-DAAE)。多数基于深度神经网络和词向量的情感分类方法需要大量的带标签训练数据。然而,在一些新兴的领域,构造带标签的数据费时费力。领域自适应算法可以利用相关领域(源域)的带标签数据来提升目标域(带标签数据较少甚至没有)的性能。但是现有的领域自适应算法更关注不同领域的共同特征,而忽略样本本身的特性。本文提出的模型不仅使用一个梯度反转层来实现对抗训练,使领域分类器无法识别领域之间的差异,从而获得领域不变的特征,而且使用自动编码器来重建原始输入以保持样本的特性。另外,为了引入目标域样本的情感监督信息,该模型还根据样本的模糊值,将部分无标签的目标域样本及其预测标签加入到原始训练数据中,重新训练整个模型。实验结果表明,Fuzzy-DAAE模型是有效的。值得注意的是,Fuzzy-DAAE模型可以用于任何其他的领域自适应任务,而不仅限于跨领域情感分类。