细粒度情感分析中词嵌入神经网络的研究

来源 :曲阜师范大学 | 被引量 : 0次 | 上传用户:liu6541
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
情感分析作为挖掘文本语料中用户情感倾向的方法,在当今社会的各个领域有着广泛应用。随着计算机技术的发展,人们不再满足于获取文本语料的粗糙情感倾向,而是希望得到基于属性或功能的细粒度情感倾向。因此,细粒度情感分析逐渐成为该领域的热点研究内容。数据规模扩大,情感语料库构建为词嵌入神经网络应用于细粒度情感分析提供了有利条件。基于双向Transformer编码器模型(Bidirectional Encoder Representations from Transformers,BERT)作为词嵌入神经网络的重要模型之一,具有局部特征提取能力强,迁移学习效果明显和预测准确率高等优势。但是,其应用于细粒度情感分析任务仍有以下不足:词嵌入神经网络的统计特性导致BERT对语料中高频特征极性敏感,受该类特征极性影响,模型预测结果出现误差;Transformer编码器采用固定序列长度512编码输入,不能使用变长输入,造成BERT在训练和预测过程中,对长文本语料情感信息丢失;大规模语料库无结构化,存在冗余语料和干扰语料,导致BERT在训练过程中浪费大量计算力。因此,基于传统的BERT模型,分别针对以上不足,从提高模型准确率,扩大模型适用范围和降低模型训练消耗三方面出发,对其进行相应改进。将改进后的模型应用于语料库,进行细粒度情感分析实验,将实验结果与现有方法比较,均取得了较高评分。本文的具体研究如下:(1)针对BERT对语料中高频特征极性敏感问题,提出信息增益关联向量的双向Transformer编码器模型(Information-gain Association-vector Bidirectional Encoder Representations from Transformers,IAS-BERT)。信息增益可以衡量某一特征与情感倾向的相关程度;关联向量可以专注于连续输入之间的内部特征,以优化[mask]标签随机覆盖训练。采用特征极性平衡权重输入到极性平衡器,能够有效平衡高频低相关特征极性。通过优化特征矩阵初始值生成方法,能够在模型训练时避免梯度消失。将IAS-BERT应用于语料库SST-2,Twitter_senti,DMSC和Chn Senti Corp中进行细粒度情感分析实验,结果表明该模型在大多数情况下优于其他模型。(2)针对BERT对长文本语料情感信息丢失问题,提出基于情感语义图的双向Transformer编码器模型(Sentiment Semantic Graph Bidirectional Encoder Representations from Transformers,SG-BERT)。使用双层双向长短期记忆网络(Bi-directional Long-Short Term Memory,Bi LSTM)作为词特征提取器和句特征提取器,生成情感语义图。以情感语义图方式进行细粒度情感分析,能够提高模型对长文本语料的适应性。将SG-BERT应用于长文本语料库IMDB和Dp_senti中进行细粒度情感分析实验,结果表明SG-BERT提高了模型对长文本的适应性。(3)针对BERT在训练过程中计算力浪费问题,提出基于概念格约简的双向Transformer编码器模型(Concept Lattice Reduction Bidirectional Encoder Representations from Transformers,Concept-BERT)。通过分析语料库结构,利用概念格关联规则约简冗余语料和干扰语料。设置前向匹配正则表达结构和优化后的损失函数,减少深层网络计算开销。通过这种方法,能够在模型情感预测准确率不变的情况下,降低训练消耗。将Concept-BERT应用于语料库SST-2,Twitter_senti,DMSC和Chn Senti Corp中进行细粒度情感分析实验,结果表明Concept-BERT能够有效减少训练开销。
其他文献
海岸带是海洋生态系统和陆地生态系统之间进行物质、能量、信息交换的重要生态系统过渡带,海岸带作为地球表面最为活跃的自然区域和资源环境条件最为优越的人文活动区域,其变化过程与人类的生存和发展有非常密切的联系,对它的研究体现了陆-海-人三大系统交互作用的动力机制。对海滩动力地貌特征进行研究能够更加深入地了解砂质海岸的动力地貌环境,为砂质海滩质量保护提供科学支撑;研究潮间带生物的生物多样性有助于深刻了解潮
经济结构转型导致了部分旧工业建筑闲置等社会问题,旧工业建筑的改造再利用成为当今社会发展过程中的一个重要议题。本论文从旧工业建筑改造角度出发,将设计方案应用于具体社区文化活动中心项目中。本论文以菏泽裘皮厂旧厂房为改造适用对象对当地社区文化中心进行设计研究,第一部分对旧工业建筑和社区文化中心相关理论进行考察研究,并且对国内外旧工业建筑改造为社区文化中心的优秀案例进行分析研究。第二部分对裘皮厂旧厂房建筑
当前,新一轮科技革命和产业变革正加快我国经济发展方式转变,制造业格局面临重大调整,大数据、云计算、边缘计算等新一代信息技术的发展日新月异,为传统制造企业转型升级提供了新方法和新思路。随着新一代信息技术和制造业深度融合,工业数据量呈指数态势增长,为了从海量的工业数据中找出数据蕴含的规律,助力制造企业转型升级,基于工业互联网平台开发数据采集与数据处理系统具有重要的理论意义和实际价值。本文以智能制造企业
阿尔茨海默病(Alzheimer’s disease,AD)是一种退行性神经疾病,一旦患病大概率不可逆。阿尔茨海默病的早期阶段被称为轻度认知障碍(MCI),有高概率转化成AD的风险。计算机辅助诊断是最近AD诊断的研究热门之一,并且作为一种传统诊断方式十分有效的补充手段深得研究人员喜爱。逻辑回归(Logistic Regression,LR)分类器是作为一种强大的二元分类器,是机器学习分类任务的重要
阿尔茨海默病(Alzheimer’s Disease,AD)是一种不可逆的神经退行性疾病,临床主要表现为认知和记忆的缺失,严重影响人们的生活。到目前为止,该疾病没有有效的治疗方法。轻度认知障碍(Mild Cognitive Impairment,MCI)是AD的早期阶段。与认知正常的老年人相比,MCI具有更高的概率转化为AD。因此,准确识别具有高转化风险的MCI患者对于AD的早期预防和延缓疾病的恶
互联网技术的快速发展,大数据时代的到来,随之而来的是网民规模的快速扩增及信息量的急速扩充。一方面,海量的信息满足了人们对生活中各个方面的需求,另一方面,大量混杂的信息使得用户无法及时准确的获取到所需信息,因此,人们在享受着大数据时代带给生活便利的同时也面临严重的“信息过载”问题。在这种情形下,推荐系统的出现成为解决信息过载问题有效的方式之一。推荐系统本质上是一个信息过滤系统,通过对用户历史行为的分
近年来,位置传感技术和无线传感器技术的发展激发了位置感知设备数量的显著增长,基于位置的服务(Location Based Server,LBS)也开始越来越受欢迎。在车联网(Internet of Vehicles,Io V)中LBS应用尤其广泛,车联网中的服务器不断获取大量的位置轨迹信息,这些信息包含用户大量的个人隐私数据,因此对车联网中车辆的轨迹数据进行保护是非常必要的。目前大多数的轨迹隐私保
随着5G、移动计算和智能设备等技术的发展与普及,各个领域涌现出了大量的物联网服务。如何从这些海量的物联网服务中找到符合自己需求的高质量物联网服务成了用户面临的挑战。服务推荐技术可以基于历史服务质量数据为用户推荐高质量的服务。然而,由于物联网服务存在着稳定性差、用户经常移动、重复调用等缺点,传统的服务推荐技术很难直接适用于物联网服务的推荐。另一方面,一个用户通常会调用不同厂家提供的物联网服务,用户调
随着高通量测序技术的发展,生物组学数据呈井喷式出现。对癌症组学数据进行深入研究可以挖掘到癌症发展过程中的重要信息,为癌症的诊断和治疗提供理论依据。癌症组学数据通常具有高维小样本的特点,整合的非负矩阵分解(Non-negative Matrix Factorization,NMF)方法可以对数据进行联合分析,从而发现多种类型数据之间的潜在关联。针对现有整合方法存在的流形学习能力不足、模型同质效应较差
随着生活水平的提高,人们的物质需求基本得到满足,安全需求日益凸显,建立温情社区,是提高居民安全感的有效方法,在老旧社区改造过程中,注重空间安全感的营造,能够加强居民之间的情感联系,更能提高居民的幸福感。论文对曲阜市沂河小区进行了多方面调研,使用针对该小区居民的随机问卷、深入访谈等方法,对沂河小区的物质及非物质现状进行调研。研究发现沂河小区物质环境破败、公共空间不足、物业管理混乱、居民类型复杂、居民