论文部分内容阅读
随着大数据时代的到来,与其关系紧密的人工智能技术得到了跳跃式的发展,文本信息的数量不仅展现出跳跃式的增长趋势,还逐渐显现出多标签、多粒度,高复杂性的特点。为了对文本信息进行更为效率的分类管理,实现文本内容的有效保留和准确过滤,研究者们近年来开始关注于自然语言处理领域中最具有普适性的多标签分类技术。基于深度学习的多标签分类方法能够自动地为文本序列中具有显著意义的信息赋予标签,进而实现对文本数据的高效利用和管理。
本文对多标签分类任务进行了全面具体的分析,并针对现有的多标签分类模型的不足提出了以下两种方案:
(1)传统的多标签分类模型在捕获文本序列中的语义信息时,要么忽略了局部语义,要么丢弃了序列的全局依赖性,这使得在文本序列中的信息没有被充分挖掘,进而造成标签预测效率的下降。本方案提出了一种新颖的序列到序列(Seq2Seq)学习策略称为“并行编码,串行解码”,基于该策略设计了一种层次化序列到序列的多标签文本分类模型。该模型并行地结合卷积神经网络和自注意力作为编码器,从源文本中提取细粒度的局部邻域信息和全局交互信息。此外,本文还应用了一个层次化的解码器来解码和预测标签序列。所提出的方法不仅充分考虑了源文本中可解释的细粒度信息,而且有效地利用这些信息来生成标签序列。在三个数据集上对模型进行了大量的对比实验。结果表明,与目前最先进的基线相比,所提出的模型在性能方面实现较全面的领先。此外,深入地分析表明我们的模型与基于RNN的Seq2Seq模型相比具有一定的优势,并且在处理高标签/样本比的数据集时更具有鲁棒性。
(2)传统的基于Seq2Seq架构的多标签分类模型在进行预测时,解码器按时间顺序依次预测标签的,这导致其在时间效率上大打折扣。对于多标签分类任务,输出标签之间是通常无顺序的。基于Seq2Seq的模型总是以固定的标签排序进行训练,导致在测试时往往会产生不稳定的预测。本方案提出了一种新颖的语义-标签多粒度注意力(SLMA)模型用于解决多标签分类任务。该模型在统一的模块中通过堆叠扩张卷积结构来构建文本序列在局部相关性和长期依赖性方面的多粒度语义特征表示。同时,利用图注意力网络(GAT)直接对标签之间的相关性进行建模,以此来更新标签表示。随后通过所设计的多粒度注意力来实现不同粒度层次的语义特征表示对标签的加权。最终,通过与输入标签嵌入矩阵权值共享的全连接层和一个Sigmoid函数实现标签的正确预测。实验表明,该模型在三个基准数据集上都取得了较好的性能。在进一步的探究实验中发现该方法对高频和低频标签的分类都有较好的鲁棒性。
本文对多标签分类任务进行了全面具体的分析,并针对现有的多标签分类模型的不足提出了以下两种方案:
(1)传统的多标签分类模型在捕获文本序列中的语义信息时,要么忽略了局部语义,要么丢弃了序列的全局依赖性,这使得在文本序列中的信息没有被充分挖掘,进而造成标签预测效率的下降。本方案提出了一种新颖的序列到序列(Seq2Seq)学习策略称为“并行编码,串行解码”,基于该策略设计了一种层次化序列到序列的多标签文本分类模型。该模型并行地结合卷积神经网络和自注意力作为编码器,从源文本中提取细粒度的局部邻域信息和全局交互信息。此外,本文还应用了一个层次化的解码器来解码和预测标签序列。所提出的方法不仅充分考虑了源文本中可解释的细粒度信息,而且有效地利用这些信息来生成标签序列。在三个数据集上对模型进行了大量的对比实验。结果表明,与目前最先进的基线相比,所提出的模型在性能方面实现较全面的领先。此外,深入地分析表明我们的模型与基于RNN的Seq2Seq模型相比具有一定的优势,并且在处理高标签/样本比的数据集时更具有鲁棒性。
(2)传统的基于Seq2Seq架构的多标签分类模型在进行预测时,解码器按时间顺序依次预测标签的,这导致其在时间效率上大打折扣。对于多标签分类任务,输出标签之间是通常无顺序的。基于Seq2Seq的模型总是以固定的标签排序进行训练,导致在测试时往往会产生不稳定的预测。本方案提出了一种新颖的语义-标签多粒度注意力(SLMA)模型用于解决多标签分类任务。该模型在统一的模块中通过堆叠扩张卷积结构来构建文本序列在局部相关性和长期依赖性方面的多粒度语义特征表示。同时,利用图注意力网络(GAT)直接对标签之间的相关性进行建模,以此来更新标签表示。随后通过所设计的多粒度注意力来实现不同粒度层次的语义特征表示对标签的加权。最终,通过与输入标签嵌入矩阵权值共享的全连接层和一个Sigmoid函数实现标签的正确预测。实验表明,该模型在三个基准数据集上都取得了较好的性能。在进一步的探究实验中发现该方法对高频和低频标签的分类都有较好的鲁棒性。