基于文本数据增强和ELECTRA语言模型的中文文本情感分析方法

来源 :安徽理工大学 | 被引量 : 0次 | 上传用户:swei830807
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文文本情感分析是数据挖掘的重要基础之一,旨在自动判定文本中观点持有者对某一话题所表现出的态度。对中文网络评论文本进行情感分析,可以应用于舆情监测,话题监督,口碑分析等场景。对中文网络评论文本进行情感分析存在两个问题:一方面中文网络评论文本的表达方式灵活,语义表达复杂,为抽取高区分度的情感特征带来了一定的难度;另一方面存在负面情感语料远远多于正面情感语料的“类不平衡现象”,进而导致模型训练“失衡”的问题。为了解决这两个问题,本文提出基于文本数据增强和ELECTRA语言模型的情感分类模型。主要的研究工作内容为:(1)针对中文网络评论文本难以抽取高区分度情感特征的问题,本文提出Ea Bi LSTM模型,以强化中文网络评论文本情感特征抽取的过程。基于目前热门的“迁移学习”方式,该模型分别在嵌入层和训练层强化文本情感特征的学习过程。首先,作为优选,在嵌入层,通过ELECTRA模型抽取文本特征;然后,在训练层,通过注意力机制和Bi LSTM模型抽取情感特征并分析相关语义联系;最后在分类层通过Softmax分类器进行分类。实验对比了迁移ELECTRA预训练语言模型与BERT模型的不同特点,并且证明了本文构建的Ea Bi LSTM模型起到了强化中文网络评论文本情感特征抽取的作用。(2)针对“类不平衡场景”下的模型训练“失衡”问题,本文在Ea Bi LSTM模型的基础上提出EDA-Ea Bi LSTM模型。该模型通过文本数据增强技术在模型的训练上引入更多的先验信息。首先,针对类不平衡的语料,通过EDA文本数据增强技术对其进行部分数据增强以平衡语料(第一次先验信息引入);然后通过构建的组合模型(基于ELECTRA)对增强后的语料进行迭代训练,抽取情感特征(第二次先验信息引入);最后通过全连接层和Softmax分类器进行分类。对比那些仅采用模型调优或扩充文本的方法,实验证明了两次引入先验信息的思路能够在F1指标上获得更多的增益,以更好地解决“模型训练失衡”问题。另外,实验还对比了全面增强策略和部分增强策略,结合不同模型所表现出来的效果;并选择F1值的均值作为评价标准,研究了生成文本对比真实文本在训练中的“替换代价”的大小。本文主要的创新和贡献为:针对网络评论这种“过于自由化”的评论文本,提出一种在嵌入层和训练层强化文本情感特征抽取过程的新方法,该方法可以提高情感分类模型的准确率;为了解决“模型训练失衡”问题,本文提出一种“两次引入先验信息”思路下的EDA-Ea Bi LSTM模型;本文还探索了“迁移学习”中预训练语言模型的应用规律,并以EDA增强技术为切入口,对文本数据增强进行了更深入的研究。图[25]表[11]参[84]
其他文献
针对晋华宫矿一采区掘进工作面巷道堵塞、通风不畅等问题,设计一套智能监测系统,实时监测管路压力、流量等参数,并进行安全预警,从硬件设计和软件设计两个角度开展研究,在一采区上进行系统现场测试。结果表明:通过现场监测和地面的数据处理,系统的故障检测精度小于50 m,系统出现超限报警的传输时间小于3 s,系统可靠性强、通信稳定,在工作面条件发生改变时,及时传递设备状态,消除事故隐患。
劳动教育是素质教育的重要组成部分,对学生人生观、价值观的培养具有促进作用。目前小学教育中存在对劳动教育重视程度不高、教学手段单一等问题,文章以小学语文学科主体式劳动教育为研究对象,基于劳动教育的重要性,对如何实现主题式劳动教育,解决以往教育问题,提出几点建议,希望为相关人士提供参考。
当前,人工智能技术的应用以及集成电路科技产业已经成为我国科技发展的支柱,也是重要的科技突破方向。近年来集成电路科技产业在国内得以迅速发展,在已经需要集成电路规模化生产的时代,传统的生产模式逐步淘汰,与此同时还必须结合人工智能技术,才能更好地提升集成电路的研发效率、生产效率以及维修效率,提升整体科技水平。本文主要围绕人工智能技术在集成电路中的应用进行分析。
近年来,抑郁症引发的社会问题引起广泛关注。随着人工智能的发展,自然语言处理技术开始应用到医疗领域中来。针对抑郁症诊疗问题,可以利用自然语言处理技术,构建抑郁症病人事件情感知识图谱,以丰富抑郁症病人画像,并基于此设计抑郁症病人情绪安抚方案,从而提高抑郁症诊疗效率,促进自然语言处理的发展。结合情感计算领域的研究现状与发展趋势,可以提出事件情感知识图谱的概念。事件情感知识图谱即将事件以及事件的情感信息按
【目的】针对果园多种苹果树皮病害实时检测的需求,设计基于Android的苹果树皮病害识别APP以便进行果园精准管理。【方法】通过网络查找和实地拍摄收集轮纹病、腐烂病、干腐病3种病害的图片数据,经扩增和标注后按照8:2比例进行训练集和测试集的划分。使用YOLOv5s算法训练苹果树皮病害识别网络模型,对训练得到的轻量级网络模型进行Android端部署,并设计相应APP界面,实现对轮纹病、腐烂病、干腐病
针对海面目标检测模型难以应用在存储能力和计算能力较小的移动端的问题,提出一种基于改进YOLOv5的海面目标检测算法。采用轻量级提取网络ShuffleNetv2 Block作为YOLOv5网络的骨干部分,减少模型计算量和参数量;使用加权双向特征金字塔网络模块替换原特征融合网络模块,提高网络对不同尺度的特征提取能力;引入坐标注意力机制,提高模型检测精度。在海面目标数据集上进行实验,结果表明:与YOLO
中医香疗历史悠久,是华夏民族优秀的传统文化资源,其深厚的科学内涵和独特的实践方法,在中华民族几千年的发展过程中,发挥着预防疾病、保健康复及延年益寿等诸多作用。文章将在介绍中医香疗“因人施香、形神并调,剂型多样、内外兼施,药食同源、简便效廉”治未病思想的基础上,从未病先防、既病防变、愈后防复3个方面深入探讨中医香疗在体质养生方面的应用与体现,藉此以飨同道。
<正>案例小辰是班上比较淘气的一个男孩,有一天小丽给张老师告状,说:"小辰把她的娃娃偷偷地藏进了自己的书包里。"而小辰藏娃娃的这一幕刚好被张老师看见了的,只是张老师当时不清楚小辰真正的目的,还没想好用什么好的方法来解决。听了小丽这么说,于是张老师问小丽:"你怎么知道小辰偷偷藏了你的娃娃呢?"张老师之所以会这么问,是因为她确定小辰在藏娃娃的时候,小丽根本没有看到,她在一边玩手工呢。张老师搞清楚了来龙
期刊
人工智能技术快速发展并使新闻业产生了广泛而深刻的变革。作为人工智能技术的一种,社交机器人重构了当今的互联网生态。如今,社交机器人已被广泛应用于新闻生产、审核、分发等多个环节。社交机器人的应用一方面提高了新闻采编效率、拓宽了新闻报道范围,但是另一方面也导致了技术作恶、破坏互联网生态、加剧社会撕裂等问题。在这种现状下,更应该摒弃“利与弊”“是与非”的二元对立式思维,从更为全面、立体的角度看待社交机器人