论文部分内容阅读
进入21世纪以来,互联网的蓬勃发展推动了各种电子商务平台的诞生。这些平台上发布的在线评论文本所包含的情感倾向有着特别重要的意义,可以帮助用户商家进行有效决策,而单单依靠人工方式从这些呈爆炸式增长的文本中获取信息十分耗时耗力。因此,如何快速有效的挖掘出海量文本中有价值的情感信息已成为当下的研究热点,在这种背景下,基于主题模型的机器学习和基于神经网络的深度学习技术相继运用到文本情感分析的研究领域,并取得了很大进展。早期研究使用的机器学习方法,大多在主题间相互独立的假设下采用词袋模型来提取词汇特征,忽略了主题之间的相关性,且在特征选择上采用人工设计的特征。近年来,随着深度学习技术的兴起,分布式词表示方法摆脱了传统机器学习中词表示粒度稀疏的问题,取得了不错的效果,但该方法中词向量表示是固定的,存在一词多义问题无法很好解决。而改进的预训练语言模型采用多组向量表示的形式,能很好的解决一词多义问题,但在模型设计中对于主题本身的意义和相关性这个先验信息没有加以考虑。在句子表示方面,有研究采用组合矢量模型的表示方法,但存在不能很好捕获句子位置信息的缺陷。在抽取句子的情感信息上,有研究利用多层前馈神经网络进行主题特征情感提取,但是这种方式对于隐含信息的抽取能力不足。为解决以上问题,本论文将深度学习技术与相关主题模型相结合。首先,本文改善了传统分割算法的不足,充分考虑主题间相关关系:采用CTM模型对于文本进行主题特征分割,获取主题之间以及主题与词语之间的相关关系矩阵,并作为主题先验信息输入预训练语言模型;其次,基于文本分割算法得到的主题先验信息和词与主题的相关性向量,采用预训练的ELMo模型进行文本词的动态表示,能有效解决一词多义的问题,并且主题先验信息的融入对后续的信息抽取起到很好的优化效果。之后,在词表示基础上,本文将使用BiLSTM模型对文本句子进行表示,它能考虑每个词的前后信息,能够更好的捕捉句子位置信息,最后,在对句子表示向量进行信息抽取时融入注意力机制,它使用多头抽取考虑全局的方式,可以很好的发现文本中隐含的信息,比单纯的多层前馈神经网络抽取方式更加充分,能够抽取文本更全面的信息。本文内容主要分为五章,第一章介绍本研究的背景和现状;第二章介绍本研究涉及到的理论和其发展历程;第三章详细介绍了本研究使用的主题分割算法的主要思想,并和传统的分割算法做了实验对比;第四章介绍了利用深度学习进行主题特征情感分析建模的过程,并用实验进行了验证;第五章对本研究进行了总结和未来研究方向展望。