基于深度学习的文本情感分析研究

来源 :成都信息工程大学 | 被引量 : 0次 | 上传用户:zhanglq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和社交媒体的蓬勃发展,互联网用户产出了大量包含了复杂情感倾向的评论信息。企业、机构或个人希望整合这些带有主观色彩的评论,来解析和跟踪大众舆论对于某一对象或某一事件的看法。数字媒体的快速发展推动了机器辅助文本分析的研究,情感分析是其中比较热门,并引起广泛关注的一种。在传统的词袋模型与机器学习方法之后,词嵌入方法成为了文本表示的首选,各种卷积、循环和递归神经网络在深度学习领域中占据了主导地位。本文在由词嵌入、二维卷积和最大池化构成的经典卷积神经网络Kim-CNN基础上,对各个组成模块进行了大量的实验,包括卷积核、池化方法、循环网络层和注意力机制,并分析了这几种结构的优劣和组合原则。其中尝试了两项重要的改进:(1)使用一维卷积替代二维卷积结构,缓解了二维卷积在特征提取过程中信息损失的问题;(2)将卷积神经网络与循环神经网络相结合,改善了卷积无法有效地识别和表达完整时序信息的问题。实验表明,改进模型1D-2D-LSTM在SST-5数据集上最高可获得3.1%的准确度提升,该模型在使用同类神经网络框架的模型中可接近目前最优的准确度水平。除此之外,我们还分析了池化策略、词嵌入微调和注意力机制等网络结构与参数选择对于模型效果的影响。自从2014年Kim-CNN提出以来,大量的研究使用卷积-循环-池化神经网络框架。随着网络复杂度的提升,虽然某些组合在分类准确度上有一定提升,但至今没有观察到明显的突破。在现有通用网络框架之外,是否有重大改进的余地?基于这个问题,本文扩展了神经网络模型的范围,分析了以下几种方法对情感分析任务的影响:(1)对文本具有可解释性的特征组合方式;(2)加入语言学特征;(3)用动态词嵌入(如BERT)替换静态词嵌入(Word2Vec等)。初步的实验结果表明,它们在打破当前性能瓶颈方面有着巨大的潜力。综合以上的实验和分析,我们认为,情感分析任务要取得突破性的进展主要依赖于两个方面的改进:(1)词表示和特征提取能力。经典的神经网络模型是将词嵌入作为词表示,卷积、循环、递归等网络作为特征提取器,但近几年的研究都陷入了瓶颈。近期,BERT模型在多项文本任务上取得了突破性的进展,它改变了经典的预训练模式,将词表示和特征提取网络同时迁移至下游任务,一定程度上提升特征表达能力。(2)可解释的下采样。神经网络的参数是海量的,为提升运算速度,需要对特征下采样来减小网络参数。为了缓解下采样过程中文本信息的损失,情感分析领域急需一种在物理层面上可解释的池化方法。
其他文献
【摘要】小学数学课堂教学需要考虑到学生的学习兴趣和上课的注意力,提问对于提高学生的注意力,引导学生参与到教学中去有很大的帮助。本文通过探究小学数学课堂教学中的提问设计环节,提问实施环节来讨论小学数学课堂教学的提问艺术。  【关键词】小学数学 课堂 提问艺术 教学  【中图分类号】G623.5 【文献标识码】A 【文章编号】2095-3089(2018) 11-0140-02  叶圣陶老先生说:“学
长期以来,在我们多数人的认知中,北美殖民地主要是由欧洲人建立、发展,进而成为一个独立自主的新生国家,因此美国对欧洲思想文化的继承不言而喻。而在美国建立与发展的过程中