论文部分内容阅读
人们在日常生活中经常使用社交媒体发布自己的状态表达自己的情感,其中不乏具有讽刺倾向的评论,该评论表面的情感往往与真实情感相悖,因此正确识别评论的讽刺特征成为讽刺检测的重要任务。讽刺检测旨在判别目标文本中是否含有讽刺倾向,由于判别该文本需要深度语义信息,因此讽刺检测是情感分析乃至自然语言处理中一项具有挑战的工作。从研究角度来看,讽刺检测可以分为基于目标文本和联合上下文信息两个角度展开研究。从研究方法来看,近几年的研究偏向深度学习方法,但以往的研究中也会采用规则的方法、统计的方法等。学者们在上述研究角度中经常采用的方法如卷积神经网络、循环神经网络等,这些方法的数据结构规则,便于处理。但在现实中,数据的结构往往是无规则的,如社交网络、化学分子等。本文基于图卷积神经网络进行讽刺检测,图卷积神经网络的数据结构可以是网状的、无规则的,便于提取目标的全局特征,在讽刺检测中取得了较好的效果。本文主要内容包括以下两个方面:1.目前基于目标文本的讽刺检测研究角度中,采用卷积神经网络虽能够提取文本的局部特征但无法提取全局特征,采用循环神经网络会存在忽略文本的非连续和长距离语义特征问题,选用以上模型会造成检测准确率不高。我们给出了围绕文本图卷积神经网络展开的两种检测模型:TGbL模型和TGsabL模型。TGbL模型中加入了双向长短时记忆神经网络来提取目标文本的时序信息;TGsabL模型在TGbL模型基础上增加了自注意力机制来提取凸显情感对比的权重分配信息。实验结果表明TGbL模型和TGsabL模型均好于基准模型。2.上下文信息有助于提高讽刺检测的准确率。我们关注的上下文信息为目标文本的作者特征,提出了两种构建作者特征方法的模型:图卷积神经网络构造作者特征模型和朴素二维向量法构造作者特征模型。图卷积神经网络构造作者特征模型能够学习得到每个作者的全局特征,朴素二维向量法构造作者特征模型能够构建二维向量来表示作者的讽刺倾向特征。上述两个模型的实验结果均好于基准模型,并且发挥了各自的优势。