论文部分内容阅读
文本情感分析是指利用自然语言处理和数据挖掘,对文本数据进行分析并判断情感倾向性的技术。然而随着时代的发展,文本情感分析技术面临着巨大的挑战:首先是庞大的数据量,互联网的磅礴发展带来的是指数级增长的文本,这些文本绝大多数都是未标注的非结构化文本;其次,新的社交媒体的兴起如微博、微信带来的是更加随意和更加简洁的文本表达形式,传统的情感分析方法无法准确地判断出文本的情感;最后,传统的特征抽取方法耗时耗力的同时又缺乏适用性,无法满足互联网时代的文本情感分析需求。近年来文本情感分析取得了长足进步,尤其是对单句或是短文本的情感极性判断已经可以获取很高的准确率。但是在实际生活中,人与人之间的情感通常是会随着对话的进行而改变,对单句对话的情感极性分析往往并不能确定对象之间的真实情感倾向。以小说为例,小说之中通常包含着多个人物,随着故事情节的发展,人物之间的好恶程度、情感极性往往会发生较大的变化,获取小说主要人物之间的全局情感倾向成为一项具有挑战性的任务。另外,现如今使用较多的文本特征为词向量,词向量有效地解决了稀疏性问题,同时,词与词之间的联系与差异也能很好地被表征出来。当然,基于词向量的模型也存在一些问题,如特征选取不足,不能很好地利用原文的信息等,这些问题一定程度上降低了文本分类的效果。为了解决存在的问题,本文充分地利用文本上下文信息,对文本特征表达向量进行改进,并将其应用于多元对象的全局情感分析任务中。本文的主要创新点和贡献如下:(1)针对大部分文本情感分析中文本特征提取不足的问题,提出了一种融合声调的双通道注意力长短时记忆网络模型。与传统的情感分析方法通常只选择词作为输入特征不同,本文提出的模型同时使用了字符和声调特征作为输入,并且融合了字、词、邻接字和声调的深层语义特征,使用双向神经网络分析对话的情感极性,提高分类的准确率。(2)本文提出了一种基于上下文的多元角色全局情感序列挖掘模型,以小说作为分析语料,并根据小说的章节进行场景分割。然后,分析每个章节中不同人之间的多轮对话的情感倾向,构造每个章节中人与人之间的章节情感向量。最后将情感向量作为神经网络的输入,训练并预测得到角色之间的全局情感矩阵。实验结果表明,与单一使用词向量或者字向量作为输入的模型相比,融合字、词、邻接字与声调的模型情感分类准确率都得到了提升,同时小说中多元人物的全局情感也能很好地识别出来。