基于上下文文本的多元情感分析研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:iamwoceo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本情感分析是指利用自然语言处理和数据挖掘,对文本数据进行分析并判断情感倾向性的技术。然而随着时代的发展,文本情感分析技术面临着巨大的挑战:首先是庞大的数据量,互联网的磅礴发展带来的是指数级增长的文本,这些文本绝大多数都是未标注的非结构化文本;其次,新的社交媒体的兴起如微博、微信带来的是更加随意和更加简洁的文本表达形式,传统的情感分析方法无法准确地判断出文本的情感;最后,传统的特征抽取方法耗时耗力的同时又缺乏适用性,无法满足互联网时代的文本情感分析需求。近年来文本情感分析取得了长足进步,尤其是对单句或是短文本的情感极性判断已经可以获取很高的准确率。但是在实际生活中,人与人之间的情感通常是会随着对话的进行而改变,对单句对话的情感极性分析往往并不能确定对象之间的真实情感倾向。以小说为例,小说之中通常包含着多个人物,随着故事情节的发展,人物之间的好恶程度、情感极性往往会发生较大的变化,获取小说主要人物之间的全局情感倾向成为一项具有挑战性的任务。另外,现如今使用较多的文本特征为词向量,词向量有效地解决了稀疏性问题,同时,词与词之间的联系与差异也能很好地被表征出来。当然,基于词向量的模型也存在一些问题,如特征选取不足,不能很好地利用原文的信息等,这些问题一定程度上降低了文本分类的效果。为了解决存在的问题,本文充分地利用文本上下文信息,对文本特征表达向量进行改进,并将其应用于多元对象的全局情感分析任务中。本文的主要创新点和贡献如下:(1)针对大部分文本情感分析中文本特征提取不足的问题,提出了一种融合声调的双通道注意力长短时记忆网络模型。与传统的情感分析方法通常只选择词作为输入特征不同,本文提出的模型同时使用了字符和声调特征作为输入,并且融合了字、词、邻接字和声调的深层语义特征,使用双向神经网络分析对话的情感极性,提高分类的准确率。(2)本文提出了一种基于上下文的多元角色全局情感序列挖掘模型,以小说作为分析语料,并根据小说的章节进行场景分割。然后,分析每个章节中不同人之间的多轮对话的情感倾向,构造每个章节中人与人之间的章节情感向量。最后将情感向量作为神经网络的输入,训练并预测得到角色之间的全局情感矩阵。实验结果表明,与单一使用词向量或者字向量作为输入的模型相比,融合字、词、邻接字与声调的模型情感分类准确率都得到了提升,同时小说中多元人物的全局情感也能很好地识别出来。
其他文献
介绍了喀腊塑克水利枢纽泄水建筑物的布置、体形及水工模型试验的主要结果:泄水建筑物表孔为4孔,溢流面采用连续式挑流消能方式,掺气设施满足规范要求,泄水槽采用4区方案,并采
阐述了别鲁阿嘎西金矿床的区域地质概况,通过分析别鲁阿嘎西金矿床的地层、构造和岩浆岩特征,以及脉岩与矿脉的时空关系,探讨了别鲁阿嘎西金矿床的成因,认为成因类型属于中高温多
本文主要从三方面入手就初中英语以读促写、读写结合教学模式展开探究,以期深化对这一模式的认识,为学生创设更为多元高效的英语读写教学环境出言献策.
为准确预测瓦斯突出,提出多层去噪自编码器(Multi-layer DAE)搭载最小二乘支持向量机(LSSVM)的瓦斯突出预测模型。多层DAE网络提取瓦斯突出原始数据的有效特征,并链接LSSVM进行突出分类。因突出影响因子边界存在一定的模糊性,从时间角度考虑将其分为动、静态影响因子,并依此对多层DAE网络按照交叉熵规则设计新的代价函数。利用收集的100组真实样本数据,多次实验确定最稳定的模型结构参数
卡林型金矿是产于沉积岩及浅变质沉积岩的中低温热液型金矿,也是广西右江地区重要的金矿类型之一。右江褶皱系金矿体赋存层位主要为泥盆系和三叠纪碳酸盐岩及陆源碎屑岩,区内
多伦义盛店铀银多金属矿位于沽源一多伦铀多金属成矿带的北段,矿体赋存于上侏罗统满克头鄂博组三段蚀变钾长流纹岩和满克头鄂博组次流纹岩体内的隐爆角砾岩中。银矿体呈脉状产