论文部分内容阅读
文本情感分析采用计算语言学的方法,可以对带有情感色彩的主观性文本进行分析、处理、归纳和推理。区别于现有类别型方法,维度型方法可以提供更为细致的情感信息。但目前面向中文的维度型情感分析方法仍然面临着诸如文化差异,缺少维度型情感词典和语料资源,现有情感词典的覆盖性差及情感分析准确度低等多个问题,设计可靠的中文维度型文本情感分析应用仍然是一项具有挑战的工作。针对这些问题,本文基于Valence-Arousal空间,研究词汇层次和文本层次的中文文本情感分析技术,主要内容包括以下三个方面。(1)针对跨语言的词汇情感标记,本文提出一种局部加权法,改进了线性回归模型,该方法对预测目标词汇周围的训练种子词汇进行加权,并降低其他无关噪音词汇的权重,解决了线性回归模型中的欠拟合问题。实验结果表明,基于局部加权线性回归方法获得了最小的预测误差及最佳的相关系数。(2)针对同语言的词汇VA值预测,本文提出一种基于社区的加权图模型,该模型使用社区发现机制进行邻接词汇的选取,并利用加权图模型改进了PageRank算法,解决了预测过程中的噪音词汇问题。实验结果显示,所提出的方法有效地减少邻接词汇中的噪音词汇数量,提高预测的效果。(3)针对文本层次的情感分析,本文提出了一种基于区域划分的深度神经网络模型。通过区域划分,模型利用卷积神经网络提取各区域中可用的情感信息,并使用长短期记忆模型进行区域间语言逻辑的序列整合,最终用于文本的VA值预测,解决了现有维度型情感分析准确度低的问题。对比实验结果表明该模型的准确度优于现有维度型分析方法和其他神经网络模型。