论文部分内容阅读
细粒度图像分类是图像分类的子任务,是计算机视觉、模式识别等领域研究的热点问题,其目的是对同一物种的不同子类进行区分。不同于传统图像分类,同一物种的不同子类具有类间差异细微、类内差异较大的特点,使得细粒度图像分类任务更具挑战性。现在,人们对物种更精细分类的需求日益旺盛,但是普通人很难辨认出不同的子类,依赖领域专家不仅速度慢而且人力成本高,这促使了学术界对它的广泛研究,使得借助计算机视觉技术自动对海量细粒度图像进行分类管理和检索,完成低成本的细粒度图像识别,成为一个非常有价值的研究课题。在对细粒度图像进行分类时,足够区分不同子类差异的细节特征往往包含于微小的局部区域中,此区域又称作显著性局部区域。因此,如何准确定位图像显著性局部区域成为细粒度图像分类研究的重点和难点。现有的细粒度图像分类算法主要依赖目标检测或人工标注信息实现局部区域的定位,一方面由于人工标注信息的获取代价十分昂贵,制约了其实用性;另一方面由于定位的局部区域仍包含较多冗余信息,没有充分利用到目标信息,并且此类算法忽略了图像通道间的相关性,影响了分类的性能。针对目前的分类算法存在的上述两个问题,本文在深度卷积神经网络的最后一层引入了基于注意力机制的注意力网络,注意力机制模拟了人类的视觉注意力特性,即通过大量训练样本自主学习就可以定位显著性局部区域,达到充分利用分类目标信息的目的。本文的注意力网络在不依赖人工标注框的训练过程中通过自主学习拟合一个函数,为最后一层卷积层输出的通道特征图分配不同的权重,实现通道特征图的重新校正,按照权重值的大小定位显著性通道,进而充分利用目标通道信息,抑制无用通道信息对分类的干扰。然而引入注意力网络后,模型的特征表示能力仍有不足,导致了分类效果不佳。对此,受双线性CNN(B-CNN)的启发,在引入注意力网络的基础上对重新校正后的通道特征图进行双线性池化操作,考虑了不同通道局部特征之间的相互关系,提高了特征的表示能力,从而优化了显著性通道的定位效果,进而更精确的利用目标通道信息,提高了网络的分类能力。通过在多个公开的细粒度图像数据集上的多组对比实验验证了本文算法的有效性。实验表明,相对基准网络,本文算法在数据集CUB-200上的准确率提升了1.26%,达到了85.26%的分类精度;与本文使用Pytorch框架复现的增大训练轮数的基准网络相比,在CUB-200、FGVC-aircraf和Car-196三个数据库上的分类准确率分别提高了0.26%、0.46%、0.1%。