论文部分内容阅读
分类问题是目前非常重要并且具有普遍意义的问题,我们生活中有很多问题归根到底都是分类问题。文本分类作为互联网文本处理以及信息检索的核心,在自然语言处理领域中占据十分重要的地位。如今互联网上中文新闻文本数量呈指数级水平爆炸增加,如何准确有效地对海量新闻数据进行分类进而从中挖掘到有效的信息,是当前急需解决的问题。传统的文本分类方法虽然能够提高分类效果,但仍然存在维度爆炸、特征稀疏等问题。随着深度学习在文本分类中的广泛应用,其能够有效地避免这些问题,并取得显著的效果。本文重点研究基于深度学习技术并使用更高效的方法实现新闻文本分类,以提高信息检索的效率,主要将深度学习中的模型融合技术应用在搜狗新闻文本分类任务中,具体的研究内容如下:(1)以搜狗新闻文本数据为目标数据集,首先针对样本数据存在的严重不均衡问题引入了简单数据增强(Easy Data Augmentation,EDA),对样本数量很少的类别进行扩增,通过多组实验表明数据增强后的分类效果优于数据增强前,证明了引入EDA能够有效地提高模型的泛化能力。然后将卷积神经网络(CNN)、双向门控循环神经网络(BiGRU)与注意力机制(Attention Mechanisms)进行有机结合,提出了CBA(CNNBiGRU-Attention)模型,将该模型与单纯的CNN、BiGRU、CNN-Attention模型以及两两组合的模型进行实验对比,结果发现CBA模型的准确率、召回率和F1值均表现最高,分别为0.8993、0.8995和0.9007,说明了该模型在新闻文本分类任务上具有出色的性能,同时证明了该模型的各个子模型都是互补的。(2)在CBA模型的基础上引入集成学习思想以进一步提升性能,提出了ECBA(Ensemble-CNN-BiGRU-Attention)模型,该模型将两个不同卷积核大小和数目的CBA模型组合成一个具有更强性能的分类器,并以概率平均的方式得到结果,可以有效地提高模型的抗噪声能力,避免模型出现过拟合的现象。将ECBA模型与CBA模型进行实验对比,结果显示ECBA模型的准确率、召回率和F1值分别是0.9058、0.9045和0.9067,均比CBA模型高,说明了ECBA模型相对于单个学习器具有更好的分类性能,在新闻文本分类上具有显著的优越性。