【摘 要】
:
随着当前网络技术迅猛发展,越来越多的人开始在网络平台发表自己的观点和对事物的评价,从而产生了海量的文本数据。面对如此巨量的文本信息,有效对其进行分类和挖掘,提取文本隐含的情感信息具有重大的社会和商业价值。本文采用深度学习中的门控循环单元网络和自注意力机制,针对目前基于深度学习的中文文本情感分类方法中存在的问题进行了改进,并进行了基于字向量的中文文本情感分类研究。首先,针对中文文本情感分类采用一种预
论文部分内容阅读
随着当前网络技术迅猛发展,越来越多的人开始在网络平台发表自己的观点和对事物的评价,从而产生了海量的文本数据。面对如此巨量的文本信息,有效对其进行分类和挖掘,提取文本隐含的情感信息具有重大的社会和商业价值。本文采用深度学习中的门控循环单元网络和自注意力机制,针对目前基于深度学习的中文文本情感分类方法中存在的问题进行了改进,并进行了基于字向量的中文文本情感分类研究。首先,针对中文文本情感分类采用一种预训练词向量会存在未登陆词或语义学习不充分而导致准确率降低的问题,提出了基于并行双向门控循环单元和自注意力机制的中文文本情感分类模型。该模型采用通用语料和原语料训练生成的两种预训练词向量进行文本表示,通过上下两个通道的双向门控循环单元网络来进行词语上下文信息的学习,并引入自注意力机制来进行词语权重计算,最终通过全连接网络来进行情感类别判定。在两个中文网络文本数据集上进行了实验,结果表明所提算法模型在两个数据集上的准确率分别达到了89.75%和77.65%,较采用一种预训练词向量的单通道模型准确率分别提升了1.5%和1.8%。其次针对目前中文分词算法存在歧义词识别和新词识别的问题以及网络文本不规范进一步加大分词难度而影响词向量训练和文本表示的问题,进行了基于字向量的中文文本情感分类研究。本文首先对两个中文数据集,以字为文本的最基本单位进行分字的预处理,然后使用word2vec工具进行字向量的训练,word2vec使用前馈神经网络来学习语料库中词语的语义知识,其基于上下文环境相似的两个词语具有相似语义的假设,通过在同一模型下进行基于字向量和词向量文本表示的情感分类对比实验,结果表明字向量优于词向量,可达到更高的准确率。同时也采用最新的BERT(Bidirectional Encoder Representations from Transformers,BERT)模型中文预训练向量进行了中文文本情感分类实验,BERT使用多层双向Transformer编码器来进行词语前后语义依赖关系的学习,并在训练过程中引入了“Masked语言模型”和“下一句子预测”任务来进行词语和句子级别表示的捕捉,实验结果表明BERT模型所训练的字向量具有强大的文本表征能力,在两个中文语料上达到当前最高的准确率。
其他文献
为扩大国民教育范围,降低教科书法定许可使用作品使用成本,国家根据《著作权法》相关规定,在前期出台的《出版文字作品报酬规定》基础上,颁布了《教科书法定许可使用作品支付
党的十八大将生态文明建设纳入了“五位一体”的总体布局中,生态环境保护工作的地位就越发重要,从中央到地方对生态环保工作的重视力度也逐渐增强。生态环境系统是打好污染防治攻坚战的主战场,生态环境系统干部更是承担生态环境保护伟大责任的主力军,是生态环境事业长久发展的坚实后盾力量,肩负着更加艰巨的时代任务。因此,要加强生态环境事业发展,就必须加强生态环境系统干部建设,为生态环境保护事业助力。本文在结合国内外
近年来我国高速铁路发展迅速,2019年底全国高速铁路营业里程达到3.5万公里,居世界第一。在大规模建设新线的同时,进一步缩短高速铁路行车间隔,充分发挥既有高速铁路的运输能力,是今后我国高速铁路发展的关键。目前移动闭塞是我国列控系统发展的一个特征,但行车间隔最小的移动闭塞方法不能直接应用于既有高速铁路,尚处于研究阶段。CTCS-3级列控系统以多段轨道电路组成的长闭塞分区为行车间隔实现列车追踪运行,列
随着市场经济不断发展,市场竞争越来越激烈,人力资源作为一种战略性资源,越来越成为事业单位发展的根本动力。人力资源的核心就是“人”,如何激励人才,充分发挥其优势,调动其积极性,成为事业单位的生存和发展的关键因素。目前,事业单位员工激励机制明显存在很多问题和不足,未能起到实际的激励作用,导致员工满意度低下、工作积极性缺失。因此,研究激励机制的优化,具有一定的理论和实践意义。本文以事业单位云南省JL院为
蚧科昆虫在分类上隶属于半翅目Hemiptera,蚧次目Coccomorpha,蚧科Coccidae,其种类繁多,分布广泛,是农林重要害虫。在其体表具有多种泌蜡腺体及蜡泌物,是分类的重要依据。本文采用扫描电镜(SEM)技术,对日本纽棉蚧Takahashia japonica Cockerell、泰龙筛棉蚧Cribropulvinaria tailungensis Hodgson&Martin
数字化科技信息技术快速发展,许多新兴市场日渐繁荣,从QQ、微信、微博的出现,再到“抖音”短视频、“伙拍”小视频以及“快手”短视频等短视频软件的火热,其为社会新经济发展提供驱动力的同时,更是带动了互联网新产业的崛起。凡事有利便有弊,网络迅速发展,其带来许多新景象,亦使短视频著作权受到了前所未有的风险与挑战。本文旨在通过对司法案例进行分析,研究在短视频著作权领域的法律规定与司法实务之间相存在的差距以及
植被图像识别是智能识别的重要研究内容之一,它在农业种植、植被科普研究、稀有植被保护、生态文明建设、植被文化传播等方面扮演着重要的角色。现如今许多基于位置的服务(LBS)应用也融入了图像识别技术来提升用户体验。但是随着拍摄技术的不断发展,更多的图像细节也会被捕捉到并展现在我们眼前,图片的拍摄角度、分辨率、植被生长的地域、植被的千姿百态以及不同植被在不同生长时期的形态不同,都给传统的图像分类算法带来了
多输入多输出(Multiple Input Multiple Output,MIMO)技术和低密度奇偶校验码(Low-Density Parity-Check,LDPC)码是当前无线通信技术中研究的重点。LDPC码采用基于置信传播的迭代译码算法,具有良好的译码性能;MIMO技术对空间域加以利用,在时域、频域和码域之外极大的增加了频谱利用率,将LDPC码与MIMO相结合,研究二者间的联合检测译码算法
广西沿海地区经济迅速发展的同时对土地的需求也不断扩大,作为重要的土地后备资源——海洋滩涂被大规模的开发利用,这对满足经济发展需求具有重要的意义。沿海地区开发利用海
背景乳腺癌是女性最常见的恶性肿瘤之一[1]。目前,乳腺癌已经成为我国女性发病位居首位的恶性肿瘤[2]。微小核糖核酸(microRNA)是一种短小的内源性非编码单链RNA分子,主要参