论文部分内容阅读
文本情绪原因识别是社交媒体处理领域的重要研究任务。对于社交媒体文本中包含的个体情绪,通过文本情绪原因识别可以发现个体情绪产生、变迁的原因。而对于社交媒体文本中包含的公众情绪,对其进行情绪原因识别可以监测网络热点事件中公众情绪变化和发展趋势等,从而提高社会治理和决策的针对性、及时性和预见性。因此,对文本情绪原因进行识别可为政府舆情管控、商业决策和观点挖掘等任务提供技术支持。目前,文本情感分析方面的研究主要是细粒度的观点挖掘和文本情感分类及预测等,对文本情绪原因识别的研究较少,相关研究还处于起步阶段,文本情绪原因识别的模型构建、识别方法还不够成熟,加之传统的机器学习算法在该领域的研究效果也不佳。因此,本文结合深度学习中的神经网络模型,提出了基于集成神经网络模型的文本情绪原因识别方法,主要研究工作如下:(1)文本情绪原因识别问题分析。文本情绪原因蕴含在文本的上下文内容中,通过对文本情绪原因识别语料的统计分析,发现了情绪原因子句的位置分布特点、语言特征以及情绪原因子句与非情绪原因子句的不平衡性等。为此,提出了集成神经网络模型的文本情绪原因识别框架。(2)集成卷积神经网络(E-CNN)模型。由于情绪原因子句与非原因子句分布的不平衡性,提出了集成卷积神经网络(E-CNN)的文本情绪原因识别方法。该方法将多个非情绪原因子句分别与情绪原因子句组合训练多个CNN模型,最后将其集成。其中CNN模型中的卷积、池化、注意力机制等操作融合了句子的语义信息。该方法与基于规则和统计的情绪原因识别方法的实验比较,结果表明前者优于后者,F值达到0.5569。(3)融合LSTM与CNN的集成神经网络(E-NN)模型。考虑到CNN模型不能很好的融合句子中距离较远的词语语义信息,在E-CNN的基础上加入长短期记忆模型(LSTM),提出一种更为复杂的集成神经网络(E-NN)模型。其中LSTM模型中的输入门、遗忘门、输出门等单元对句子中距离较远的词语语义融合益处较大。该方法与E-CNN的实验比较,结果表明E-NN效果最佳,F值达到0.5983。