基于深度神经网络的文本情感分类研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:aolongjiutian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社交平台和电子商务的不断发展,互联网用户呈现爆炸式增长趋势,每天产生海量的文本、音频、图片和视频等数据,而文本信息数据量偏大且杂乱无章,人工很难进行区分和整理。互联网上产生的海量文本数据反映着用户的观点和情绪变化,合理有效的从海量文本数据中挖掘出其蕴含的情感信息变得越来越重要。因此,随着Word Embedding将文本数据训练为低维稠密向量的发展,结合深度神经网络模型逐渐成为目前文本情感分类的主流技术。本文主要研究内容是结合卷积神经网络和循环神经网络完成文本情感分类任务。卷积神经网络通过卷积操作提取文本特征具有一定的优势,但是卷积神经网络模型进行情感分类时容易忽略词的上下文语义信息,造成一词多义。因此,本文提出了C_BiLSTM(CNN_BiLSTM)模型,将卷积神经网络提取的局部特征和双向长短时记忆网络提取的全局特征进行融合。BiLSTM(Bidirectional Long Short-Term Memory,BiLSTM)克服了传统循环神经网络的梯度消失或者梯度爆炸问题,同时BiLSTM从前向和反向2个方向处理长距离的上下文,提取带有上下文信息的全局特征,在一定程度上避免了CNN进行文本分析时一词多义的问题。该模型既能利用CNN快速提取局部文本特征,又能利用BiLSTM提取带有上下文语义信息的全局文本特征。并在SogouCA数据集上进行实验,结果表明本文所提模型在文本情感分类任务中取得了较好结果。本文提出的C_BiLSTM模型虽然在一定程度上解决了一词多义的问题,并取得了较好的文本情感分类结果。但是C_BiLSTM模型的卷积神经网络部分层数较浅,不能有效提取高层的文本特征,所以本文提出了VDC_DBLSTM(VDCNN_DBLSTM)模型,利用8个卷积层的VDCNN(Very Deep Convolution Neural Network,VDCNN)代替只有一个卷积层的CNN提取高层的文本特征,VDCNN借鉴VGG和ResNet的思想,将卷积核大小设置为3,通过不断叠加网络深度,并采用Shortcut和Batch Normalization机制加速模型收敛速度。使用隐藏层层数为4的DBLSTM(Deep Bidirectional Long Short-Term Memory,DBLSTM)提取文本全局特征,并将VDCNN提取的文本局部特征和DBLSTM提取的全局特征进行融合,同时在SogouCA数据集上进行实验,与单一模型、其它深度神经网络模型和C_BiLSTM模型均进行了对比,实验结果表明本文所提模型进一步提高了文本分类的准确率。
其他文献
社会化媒体是一种新型的网络媒体,主要目的便是鼓励用户多与其他用户交流,增加人们之间的沟通和联系。随着众多社交网络的兴起,越来越多的民众被这些社会化网络以一种网络的
高校学生党建工作进社区是新时代下高校党建工作的积极探索和创新发展。随着高校后勤改革和高等教育体制改革,学生社区成为集学生学习、生活和学校教育、管理、服务于一体的特殊区域。新时代要求党的基层组织提高做思想政治工作能力,高校学生党建工作进社区是遵循党的建设规律、思想政治工作规律、学生成长规律,丰富高校党建工作内涵、促进大学生全面成长成才的有效途径。本文在对高校学生党建工作进社区内涵梳理的基础上,以浙江
近年来,上假肢行业蓬勃发展。究其原因主要是上假肢潜在消费群体的增加。一方面由于人口老龄化问题的加剧,老年群体对上假肢的需求量很大。另一方面,由于社会发展较快,工业事故、交通事故以及自然灾害的频发,残疾人群体的人数增长迅速,该群体中越来越多的人迫切需要上假肢的协助来完成日常生理活动。本文中主要是针对一种上假肢的控制机理和控制系统进行了研究。在控制机理上,首先,根据上假肢的机械结构特点,使用DH建模方
桥梁快速预制拼装技术具有现场作业时间短、施工效率高以及对周边环境影响小等优点,是当前桥梁施工的发展方向和研究热点。在桥梁预制拼装技术中,各预制构件之间的连接方式与可靠性能是关键问题。本课题组提出一种施工速度快、可靠性强的“预留灌浆孔连接”新方式,并通过拉拔试验获得了其抗拉性能和最小锚固长度,但其抗震性能尚未研究。本文采用拟静力试验和有限元分析对其抗震性能进行研究,为该连接方式的工程应用提供试验依据
学位
移动机器人在未知环境下的自主定位与导航技术是近年来的研究热门,本课题针对移动机器人采用视觉传感器完成定位和用于消除定位过程中累积误差的回环检测问题进行研究,并对机器人的点到点路径规划问题以及多机器人路径规划问题进行分析,具体内容如下:首先,针对移动机器人的视觉定位技术,采用基于特征法的视觉里程计设计方法,在该方法的特征提取与描述环节分别采用ORB、SURF、SIFT三种算法,对基于这三种算法的视觉
文本分类是自然语言处理领域中十分重要的研究任务之一,随着互联网技术的发展,文本分类在各种应用系统中扮演着至关重要的角色。而中文新闻文本的特点严重影响着分类任务的结果,其特点包括:文本句子由各种短语组成,对这些短语结构的特征提取有助于学习文本的特征表示,从而提高分类准确率;中文新闻文本篇幅较长、内容多,为了提高文本特征表示对原始文本蕴含意义的表达能力,要求分类模型能充分学习长文本的上下文依赖关系;文
问答社区为用户提供了一个解决疑难问题,分享知识、经验、见解的交互平台,用户不必烦恼于如何提取关键字来表述他们的信息需求。问答社区包含的内容极为丰富,涉猎的话题也非
近几年来我国经济逐渐向服务业等第三产业转型,区域物流业和旅游业逐渐成为了新的经济增长点。区域物流和旅游业虽然看似是两个毫不相关的产业,但是旅游产业对“流通性”的需求和物流产业的“流通性”职能为二者之间的协同关系提供了很大的空间和可能性。那么区域内如何完善物流,促进旅游业发展,是一个值得思考的问题。然而现有研究物流业对旅游业发展产生影响的学术成果并不丰富,其中基于区域视角,考虑在经济发展水平各异的情
金融作为现代经济的核心与命脉,对一国的经济增长和居民收入提升具有重要影响。与此同时,区域之间的竞争已经演变为人才的竞争,人才对于推动科技进步、社会发展发挥着越来越大的作用。因此,本文力图从人力资本的视角来探讨金融发展如何影响一个地区的居民收入。文章可以分为五个部分。第一部分为绪论。第二部分主要是进行理论基础分析。第三部分主要是对现阶段西部地区人力资本、金融发展和城镇居民收入的现状进行分析。第四部分
芳香性是化学研究中最基本的概念之一。依照休克尔规则,芳香性分子具有4n+2的共轭电子结构,稳定性较高;反芳香性分子具有4n共轭电子结构,稳定性较低。与芳香性分子相比,反芳香性分子具有特殊的光学,电学和磁学特性,其HOMO-LUMO能级差小,电子传输能力强的特点在电极材料和半导体电子材料的应用方面具有重要价值。然而,反芳香性分子内在的不稳定性极大限制了其应用范围,设计合成稳定的反芳香性分子具有重要的