改进的深度学习算法在中文文本分类中的应用

来源 :安徽大学 | 被引量 : 0次 | 上传用户:ddy110110520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类问题是目前非常重要并且具有普遍意义的问题,我们生活中有很多问题归根到底都是分类问题。文本分类作为互联网文本处理以及信息检索的核心,在自然语言处理领域中占据十分重要的地位。如今互联网上中文新闻文本数量呈指数级水平爆炸增加,如何准确有效地对海量新闻数据进行分类进而从中挖掘到有效的信息,是当前急需解决的问题。传统的文本分类方法虽然能够提高分类效果,但仍然存在维度爆炸、特征稀疏等问题。随着深度学习在文本分类中的广泛应用,其能够有效地避免这些问题,并取得显著的效果。本文重点研究基于深度学习技术并使用更高效的方法实现新闻文本分类,以提高信息检索的效率,主要将深度学习中的模型融合技术应用在搜狗新闻文本分类任务中,具体的研究内容如下:(1)以搜狗新闻文本数据为目标数据集,首先针对样本数据存在的严重不均衡问题引入了简单数据增强(Easy Data Augmentation,EDA),对样本数量很少的类别进行扩增,通过多组实验表明数据增强后的分类效果优于数据增强前,证明了引入EDA能够有效地提高模型的泛化能力。然后将卷积神经网络(CNN)、双向门控循环神经网络(BiGRU)与注意力机制(Attention Mechanisms)进行有机结合,提出了CBA(CNNBiGRU-Attention)模型,将该模型与单纯的CNN、BiGRU、CNN-Attention模型以及两两组合的模型进行实验对比,结果发现CBA模型的准确率、召回率和F1值均表现最高,分别为0.8993、0.8995和0.9007,说明了该模型在新闻文本分类任务上具有出色的性能,同时证明了该模型的各个子模型都是互补的。(2)在CBA模型的基础上引入集成学习思想以进一步提升性能,提出了ECBA(Ensemble-CNN-BiGRU-Attention)模型,该模型将两个不同卷积核大小和数目的CBA模型组合成一个具有更强性能的分类器,并以概率平均的方式得到结果,可以有效地提高模型的抗噪声能力,避免模型出现过拟合的现象。将ECBA模型与CBA模型进行实验对比,结果显示ECBA模型的准确率、召回率和F1值分别是0.9058、0.9045和0.9067,均比CBA模型高,说明了ECBA模型相对于单个学习器具有更好的分类性能,在新闻文本分类上具有显著的优越性。
其他文献
某高桩码头下节点施工荷载大,模板支架搭设难度较大。在不影响工程结构和使用功能前提下进行合理的荷载分解,并采取相应施工技术措施,解决下节点施工难题。
<正> 二氧化碳气体保护焊焊接方法,具有成本低、质量好、高效率、变形小、无渣、明弧、易掌握、能全位置焊接、易于实现自动焊接等优点,所以广泛用于工业各个部门,是国家科委
我国海水鱼种类繁多、资源丰富,但由于捕捞的季节性,在捕捞后需要保存以备后期销售或加工。海水鱼独特的蛋白质特性导致其非常容易腐败变质,品质保持成为首要问题。冷冻贮藏
摘要:纸笔测试评价是生物学实验教学中最常用的评价方式。它操作便捷、可行性强,且有利于评定生物学实验的知识目标。因此,我们要研究生物学实验纸笔测试评价设计的原则、方法,使之不仅能体现新课程理念,并适应新课程发展的需要。  关键词:生物学实验;纸笔测试评价;原则;程序  中图分类号:G632.0?摇 文献标志码:A 文章编号:1674-9324(2014)01-0244-02  生物学实验纸笔测试评价
目的探讨高渗盐水对重型颅脑损伤患者颅内压及脑水肿的影响。方法将2014年1月-2017年1月我院收治的符合条件的重型颅脑损伤患者60例作为研究对象,随机数法分为3%高渗盐水组(3
智能化与集群化是无人机发展的趋势,在大规模数量的被控对象与复杂的任务场景需求下,仿真平台在无人机集群的前期设计阶段扮演了愈发重要的角色。基于功能完备的仿真平台,团
随着经济的发展和生活水平的提高,人们对道路安全性和舒适性的要求也日益地提升,在生活水平提高的同时,我国的汽车保有量也在迅速的增长,随之而来的是交通拥堵和交通事故频发