论文部分内容阅读
注意力机制已在计算机视觉领域获得了广泛应用。其中,图像分类注意力机制面向卷积神经网络,通过重校准特征以提升模型表达能力。此外,由于目标检测等领域的算法会利用卷积神经网络提取图像特征,分类注意力机制带来的性能增益能够泛化至这些领域。然而,当前该注意力机制的相关工作存在着一些不足:仅使用全局池化作为注意力描述子,未较好地利用局部上下文信息;参数量与计算复杂度较大;未结合所作用网络结构的特点进行设计等。本课题针对上述问题,对图像分类注意力机制结构设计进行了研究,主要研究内容与创新点包括如下:1.针对仅利用全局池化计算注意力描述子的不足,提出了基于多尺度特征上下文的图像分类注意力机制。该结构利用聚合与分配子模块分别计算多尺度注意力描述子与对应权重。子模块间引入高效的约束,抑制噪声描述子的影响。此外,深度卷积被用于显式地提取上下文特征,以带来进一步性能增益。实验部分,本文通过主流的图像分类数据集CIFAR-100以及Image Net-1K验证注意力模块的性能,通过可视化实验说明模块能够帮助模型更好地聚焦于重点特征,通过目标检测实验验证模块的泛化能力。Image Net-1K分类任务中,嵌入本文模块的Res Net50的分类准确率提升2.30%,超过了拥有2倍模型深度的Res Net101。2.从轻量化网络的特点出发,基于嵌入-扩张的思想提出了通道域-空域特征自适应图像分类注意力机制。当前,轻量化网络空域特征提取能力较弱,通道域与空域特征不平衡。针对该现象,本文首先利用无参数多维度校正以增强上述两维度特征的表达能力;随后利用全连接层与卷积层提升感受野,增强特征信息流动;最后实现空域与通道域增强后特征的自适应融合。本文面向轻量化网络,在Image Net-1K数据集上进行消融实验,并利用轻量化单阶段目标检测模型验证模块的泛化能力。Image Net-1K分类任务中,本文模块在仅引入0.1M额外参数开销下,为Shuffle Net V2带来2.37%的分类准确率提升。3.构建了一套嵌入注意力机制的目标检测系统。本文对轻量化单阶段目标检测算法YOLO V3进行优化,包括结构、训练、推理三方面。结构增强指在骨干网络中引入感受野-空域联合注意力机制,以提升模型纹理特征的表达能力与对目标尺度变化的鲁棒性。训练增强指在训练阶段引入诸如样本混合等技巧,在不提升推理复杂度的前提下强化模型性能。推理增强指对图像预处理、推理、后处理进行流水线优化。VOC目标检测任务中,本文模块在仅引入0.03M额外参数开销下,带来了0.65m AP提升。优化后系统目标检测性能优于YOLO V3,参数量降低18倍,速度提升6倍。