论文部分内容阅读
随着科学技术水平不断提高,互联网得到迅速发展,以互联网为纽带带动了包括商业贸易、服务业、娱乐休闲、公益等各个行业迅速发展,人们的生活方式、工作方式也产生了巨大的改变。文本作为网络信息的主要承载形式,数据量飞速增长,涉及的领域也更加广泛,例如产生了大量电影评论、新闻信息、论坛交流信息、微博评论、商品评论等涉及多个产业领域的网络文本信息。这些文本信息数据量巨大,包含丰富的信息。将这些文本进行自动分类后可以了解发布信息者的真正意图,有助于经济的发展、各个行业带头企业的方向导航、政府的决策完善。近年来,深度学习(Deep Learning)作为人工智能领域最重要的进展,在诸多领域都有着惊人的表现。大量研究表明,相比于传统的机器学习算法,深度学习中的许多网络模型都能够获得更加出色的性能。基于BiGRU模型的文本分类是目前最主流的文本分类方法,在分类效果上有不错的表现。本文尝试在BiGRU模型的基础上,采用更加适合文本分类的深度学习算法进行文本分类模型搭建,主要工作包括以下几个方面:首先对文本分类的一般流程进行了概述,包括文本预处理、文本表示、文本特征提取、文本分类训练、文本分类以及性能评估。通过对各个步骤常用方法的研究以及文本分类本身特点的分析,进一步阐述了文本分类传统方法的诸多问题与难点,为后文分类方法的选取和分类网络模型的设计奠定了基础。其次阐述了 BiGRU网络与CapsNet网络的原理以及在文本分类领域的应用。为提高BiGRU网络模型文本分类性能,文中深入研究了 CapsNet的神经胶囊工作流程与动态路由机制,分别分析了 BiGRU网络和CapsNet网络在文本分类中的优势与不足,将BiGRU网络的双向循环机制与CapsNet网络的神经胶囊与动态路由机制结合起来,构建基于BiGRU-CapsNet的文本分类模型,对文本进行分类。最后在keras框架平台上搭建BiGRU-CapsNet模型对文本进行分类,并讨论影响BiGRU-CapsNet文本分类模型性能的各种因素。从神经网络迭代次数、截取文本的长度、激活函数的选择三个方面分别设置对比实验,对实验结果进行分析,得到最优的参数与函数设置。在此基础上利用该模型对其他数据集进行分类训练,验证模型的适用性,并将相同数据集分别在BiGRU文本分类模型与BiGRU-CapsNet文本分类模型上进行实验并对比分析。实验结果表明,相较于BiGRU文本分类模型,BiGRU-CapsNet文本分类模型能更有效的对文本进行分类,分类准确率更高,而且具有更好的适用性。