论文部分内容阅读
深度学习作为目前人工智能领域主流研究方向之一,在各种分类任务中都取得了非常不错的效果,其中就包括中文文本分类任务。中文文本分类任务根据操作流程一般包括数据预处理、中文分词、向量表示以及文本分类等关键技术。本文主要研究基于深度学习的中文分词技术以及文本分类技术,并通过对这两种关键技术的改进,提升各自任务的效果。最后结合这两种改进的关键技术从整体上提升中文文本分类效果。本文的工作内容主要包括以下几个方面:1、结合BERT与GRU模型的优势,改进得到一种新的多标准中文分词模型。在传统多标准分词模型中只使用了Bi-LSTM模型,但是随着数据集的增大训练时间也会增加,因此通过使用更简单的Bi-GRU模型来加快模型的训练速度。同时为了从文本中提取出更丰富的语义特征,使用BERT预训练模型作为语义特征提取层加入到模型中,以此提升模型分词效果。根据上面两项改进得到一种新的多标准中文分词模型,并设置相关实验,从训练时间以及分词效果两个方面的提升证明改进的有效性。2、在短文分类模型中加入计算机视觉领域的混合域注意力模块,改进得到一种新的短文本分类模型。传统短文本分类中的卷积神经网络在提取特征时对所有特征一视同仁,为了增强模型对关键特征的提取能力,仿照计算机视觉中的做法,将混合域注意力模块加入短文本分类模型中。通过设置与原模型的对照实验,证明了加入混合域注意力模块对文本关键特征的提取确实很有帮助。3、在层次Attention模型中应用多通道机制,改进得到一种适合中文长文本数据的多通道层次Attention分类模型。使用层次Attention模型进行中文文本分类任务时,长文本增加了分词错误的概率继而产生信息的丢失,于是加入对字粒度文本表示的特征提取通道来补充词粒度文本表示带来的损失。同样设置与原模型的对照实验,通过分类效果的提升证明了加入字粒度文本表示后提取的特征更加全面。4、通过将上面中文分词技术以及文本分类技术的改进进行结合,设计并实现了一个简易的中文长短文本混合分类系统,并利用该系统测试上述两种关键技术的改进在结合后,整体上对中文文本分类效果的影响。