基于深度学习和CTM模型的文本情感分析研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:adzqx2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
进入21世纪以来,互联网的蓬勃发展推动了各种电子商务平台的诞生。这些平台上发布的在线评论文本所包含的情感倾向有着特别重要的意义,可以帮助用户商家进行有效决策,而单单依靠人工方式从这些呈爆炸式增长的文本中获取信息十分耗时耗力。因此,如何快速有效的挖掘出海量文本中有价值的情感信息已成为当下的研究热点,在这种背景下,基于主题模型的机器学习和基于神经网络的深度学习技术相继运用到文本情感分析的研究领域,并取得了很大进展。早期研究使用的机器学习方法,大多在主题间相互独立的假设下采用词袋模型来提取词汇特征,忽略了主题之间的相关性,且在特征选择上采用人工设计的特征。近年来,随着深度学习技术的兴起,分布式词表示方法摆脱了传统机器学习中词表示粒度稀疏的问题,取得了不错的效果,但该方法中词向量表示是固定的,存在一词多义问题无法很好解决。而改进的预训练语言模型采用多组向量表示的形式,能很好的解决一词多义问题,但在模型设计中对于主题本身的意义和相关性这个先验信息没有加以考虑。在句子表示方面,有研究采用组合矢量模型的表示方法,但存在不能很好捕获句子位置信息的缺陷。在抽取句子的情感信息上,有研究利用多层前馈神经网络进行主题特征情感提取,但是这种方式对于隐含信息的抽取能力不足。为解决以上问题,本论文将深度学习技术与相关主题模型相结合。首先,本文改善了传统分割算法的不足,充分考虑主题间相关关系:采用CTM模型对于文本进行主题特征分割,获取主题之间以及主题与词语之间的相关关系矩阵,并作为主题先验信息输入预训练语言模型;其次,基于文本分割算法得到的主题先验信息和词与主题的相关性向量,采用预训练的ELMo模型进行文本词的动态表示,能有效解决一词多义的问题,并且主题先验信息的融入对后续的信息抽取起到很好的优化效果。之后,在词表示基础上,本文将使用BiLSTM模型对文本句子进行表示,它能考虑每个词的前后信息,能够更好的捕捉句子位置信息,最后,在对句子表示向量进行信息抽取时融入注意力机制,它使用多头抽取考虑全局的方式,可以很好的发现文本中隐含的信息,比单纯的多层前馈神经网络抽取方式更加充分,能够抽取文本更全面的信息。本文内容主要分为五章,第一章介绍本研究的背景和现状;第二章介绍本研究涉及到的理论和其发展历程;第三章详细介绍了本研究使用的主题分割算法的主要思想,并和传统的分割算法做了实验对比;第四章介绍了利用深度学习进行主题特征情感分析建模的过程,并用实验进行了验证;第五章对本研究进行了总结和未来研究方向展望。
其他文献
本文以低阶煤为原料,从褐煤中提取腐植酸,并进一步改性、掺杂制备腐植酸基多孔炭载体,初步研究了腐植酸基多孔炭载体的制备方法,考察不同制备条件对多孔炭载体性质的影响;采
黄麻是天然韧皮纤维,由纤维素、半纤维素、木质素、果胶、脂肪、灰分和树胶组成。黄麻纤维很长,是一种天然长丝纤维,手感柔软,光泽明亮。黄麻的用途多种多样,包括服装、土工
卫星遥感成像系统与目标物体距离较远,导致图像处理中存在识别率降低和部分细节信息缺失等问题,影响遥感图像中目标的精确提取,因此对遥感图像超分辨率重建方法的研究具有重
在线学习社区中的学习分析研究对于了解学习者的学习情况,辅助教师进行教学决策有着重要的意义。该领域研究早期主要基于统计和行为数据进行学习行为分析,近年来研究者越来越
目前对端到端的文本检测与识别模型的研究取得了不错的进展,该领域研究主要分为两个方向,一类是结合文本行检测和RNN解码的方式,这类方法无法检测单个字符边框。另一类是结合
随着高新技术的不断发展,复杂曲面产品广泛应用于模具、汽车、航空航天、造船等装备制造领域,其产品研制过程中高效配置制造资源、共享研制知识、增强管控能力、降低信息化成
物联网智能节点一般采用电池供电。对于长时间工作需求的应用,需要大容量电池才能保证其长期稳定工作,显然提高了节点的应用成本。延长智能节点的使用寿命可以通过降低电路节
在国家大力鼓励大众创业相关的政策背景下,全国各地各行业都掀起了创新创业的热潮,创新创业既能为企业自身带来可观的经济收益和远大的发展前景,又能带动就业,解决系列社会问
研究分析表明环境气体监测问题已逐渐成为人们日益关注的重点,利用机器人主动嗅觉技术对这一问题的研究具有重要的意义。如何利用旋翼无人机自主完成三维空中气体的感知、跟
服役环境中的温-湿度变化会在混凝土内部产生对应的温-湿度响应,该响应与各类混凝土耐久性问题息息相关。此外,由于四季交替、昼夜循环等原因而产生的环境周期性温-湿度变化,