基于ELMo和Bi-SAN的中文情感分析算法研究

来源 :西北大学 | 被引量 : 0次 | 上传用户:w19870602
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
情感分析是自然语言处理中的基本任务,属于文本意见挖掘范畴,是指对文本数据进行清洗、处理、提取相关特征并计算判断文本蕴含的情感倾向,为各项决策提供依据,被广泛应用在舆情分析、经济发展、法制建设和推荐系统等方面。大量学者对情感分析任务展开研究,已经取得了一定的成果,但仍存在一些挑战。如静态词嵌入方式由于一词多义问题致使提取的特征存在偏差;传统的卷积、循环结构的深度学习网络无法对文本整体进行处理导致特征提取不充分;现有情感分析算法多数仅使用单一词向量作为输入,提取的特征单一,导致分类结果过度依赖词向量等等。针对上述问题,本文主要研究内容包括:1.针对目前深度学习算法常以静态词嵌入技术进行文本向量化,无法解决一词多义现象使得文本情感特征提取存在偏差的问题,提出了改进的ELMo(Embedding from Language Model)语言模型实现词嵌入,并结合双向长短期记忆网络的情感分析算法,ELMo语言模型能够生成融合词义、句法和语义的词向量,通过双向长短期记忆网络提取词的上下文特征,提高了中文文本情感分析算法的分类准确度。2.针对卷积神经网络在提取文本特征时的局限性以及双向长短期记忆网络耗时较多且特征提取不全面的问题,提出使用融合相对位置编码的双向自注意力网络进行情感分析。该网络任意词之间直线连接,能够很好的提取文本的长期依赖关系并且速度更快;每一词都能从上下文的所有词中提取特征,并能自适应的学习到对于情感倾向性判断更为关键的特征;同时,引入相对位置编码弥补自注意力机制无法学习序列特征的不足。对比实验结果表明所提算法的可行性和有效性。3.针对现有深度学习算法仅使用单一词向量作为输入,特征提取时过度依赖词向量的不足,引入词性、情感词典先验知识以丰富文本特征,使用自注意力机制编码词性、情感词典特征,通过门控单元与研究内容2中的词向量特征进行融合,突出情感特征,降低噪声影响。实验结果表明引入情感先验知识丰富文本特征的方法是有效的,进一步提升了情感分类的精度。
其他文献
近年来,随着空间感知能力和点云大规模处理技术的愈加成熟,基于激光的三维扫描技术已经广泛应用于实时导航、虚拟现实、建筑信息模型建模等各个领域中,而点云分割技术是面向这些应用领域的必要技术之一。点云分割是对点云模型进行有效利用的关键技术,点云分割技术实现了对点云模型的分而治之,无论是识别还是分类都需要先对点云进行分割提取,提高点云分割精度与效率是目前主要的研究方向。本文提出基于图卷积神经网络的点云特征
文物是最具有代表性文化遗产的瑰宝。由于传统人工复原效率低下,且会对文物造成损坏,使用计算机对文物进行数字化保护与复原成为必要的趋势。其主要应用于对文物碎片分类,匹配,拼接以及孔洞修补。文物碎片数量庞大,形状既不规则又不完整,表面几何纹理特征复杂,如此本文以兵马俑碎片的三维模型作为研究对象,展开对文物碎片的分类相关技术研究,主要的研究内容如下:1.针对三维模型的特征提取只能提取局部表面几何特征,而丢
本文以教育学习理论、教育心理学为指导,采用问卷调查的方法,对江苏省张家港市乐余高级中学高一学生进行了抽样调查和分析,力求从中概括出造成农村高中化学学习成绩差异的非智力因素,并提出了相应的教育教学对策。
在古代瓷器鉴定领域,判定这个瓷器的生产年代、它的烧制窑口、它的所属类别这些问题依旧是陶瓷考古的重要内容。在古代文物的保护与研究过程中,经常会发掘出大量古代瓷器碎片,这些混杂在一起的文物碎片属于不同的类型,来自不同的器物和产自不同的年代,从而加重了碎片分类的工作量,影响了瓷器复原的速度,不便于文物的管理和保护工作。本文围绕古代瓷器碎片的自动分类问题,通过理论分析、数据集制作、方法设计与实验对比,分别
我国寒武系产有非常丰富的古生物微体化石,出现了很多与现代生物完全不同的生物种类,它们对地球上早期生命演化和寒武纪生命大爆发具有非常高的研究价值。但是由于微体化石个体微小,传统的微体化石分拣工作都是通过人工在显微镜下逐个观察挑选完成,该方式效率低下。近年来,图像识别技术在各个领域被广泛研究应用,在此背景下,将图像识别技术引入到微体化石研究工作中,无疑会提供很大的便利。针对不同场景下的微体化石识别问题
JavaScript是一种流行的、平台无关的编程语言,为了保证JavaScript程序在不同平台上的互操作性,JavaScript解释器(即引擎)的实现必须符合ECMAScript-262标准。然而,标准的频繁变动使得引擎开发者往往难以做出及时的更新,从而使JavaScript引擎出现不符合标准的行为,即一致性缺陷。一致性缺陷不但会导致正确的JavaScript脚本在运行后得出错误的结果,还有可能
书法是中国汉字特有的一种书写载体,从甲骨文、金文、隶书等逐渐发展变化出楷书、草书、行书等书法。现今,使用纸张和碑刻作为书法作品传承的载体非常不易保存。氧化、虫蛀、风蚀等自然因素和战乱、损毁等人为因素都对书法作品保存造成了非常大的影响。所以,使用现今的科学技术对中国的书法古籍和碑文等进行虚拟修复和是非常有意义的工作。在计算机视觉领域中,使用卷积神经网络进行分类和特征提取,使用生成式的神经网络进行图像
化石图像作为化石标本的信息载体,是古生物学者之间讨论古生物分类学和系统学的重要依据。准确且自动化的化石图像检索,不仅有助于古生物学者建立生物演化关系,而且有助于古生物爱好者学习古生物知识。虽然使用常规计算机图像领域的方法可以对化石图像进行自动化识别和检索,并可以有效减轻化石图像检索过程中的错误率和主观性,但是,存在两个主要的问题:一是真实的化石图像数据量不足,导致模型泛化性能低;二是化石图像中主体
人机对话(Human-Computer Dialogue)是人工智能的重要应用之一,其特点是可以自动地生成对话回复与人进行交谈,而备受研究者的关注,其目标是希望生成的对话回复语句更加多样,富有情感,贴近人类的真实对话。在对话生成领域中,研究人员开始使用Seq2Seq模型进行实现,取得了一定的进步,提高了模型的适用性,但由于对话语境的复杂性,主要存在以下缺点:模型容易生成通用回复,语句质量较低,会导
随着社会发展,数据类型愈发多样化,时间序列数据是随时间变化生成的一系列连续实值,通常在时间上存在前后关系,它的特点是数据量大、数据维度高以及随时间变化更新。对时间序列数据进行分类是数据挖掘领域重要研究内容,考虑到时间序列数据通常是在一段子序列中表现出类别之间的差异,因此shapelet作为具有较高区分度的子序列也就引起重视。基于shapelet的时间序列分类算法具备可解释性、分类速度快、分类准确率