论文部分内容阅读
近年来,互联网的高速发展导致每行每业的图像数据呈现出爆炸式增长,想要在众多的图像数据中高效并准确地检索出用户所需要的图像成为了一大热点,受到了研究者的广泛关注。面对工业界对图像检索技术迫切的需求,基于文本的图像检索技术由此诞生。考虑到图像的视觉特征对于图像检索也很重要,基于内容的图像检索技术被提出来。基于文本的图像检索技术需要大量人工标注,耗费时间,对于海量数据检索很难实现;而基于内容的图像检索技术又存在以下两个问题:语义鸿沟的问题和维数灾难的问题。本文结合深度学习和哈希算法解决以上图像检索技术带来的问题。深度学习能自动进行特征学习且能力强,而哈希算法能够将图像的高维内容特征映射到低维的汉明(二进制)空间中,有效地降低了图像在计算机中的存储空间。本文主要使用空间注意力机制和N对损失分别对深度哈希算法进行了改进,并通过两个基准数据集进行相关验证。(1)针对大部分图像会受到几何失真以及背景因素影响的问题,而且以往深度哈希方法仅仅使用全局图像来生成二进制哈希码,未考虑局部空间注意信息对于图像定位和物体检测也很重要。因此,本文提出了一种新颖的深度哈希框架,该框架将本地空间注意力机制和全局图像信息机制集成到端到端的网络结构中。为了使哈希算法更有效,所提出的框架包括两个子网络。一个子网络专注于目标对象的指定位置,它使用局部空间注意力机制。另一个子网络用全局卷积神经网络提取图像的全局特征。最后,这两个子网络输出的图像特征被融合以形成最终的二进制哈希码。(2)针对现有的基于对比损失和三重损失的深度哈希算法存在的问题:网络简单;它仅使用一个负例,在每次更新中均不与其他负类进行交互,收敛缓慢。在本文中,我们使用一种新颖的哈希算法被称为基于N对损失的深度残差哈希算法来解决此问题。为了减少计算负担,我们使用批构造。所提出的目标函数允许在多个负例之间进行联合比较来概括三元组损失,在每次更新时能够与其他类别样本进行交互,达到全局最优解。本论文在两个基准图像数据集(CIFAR-10数据集和NUS-WIDE数据集)上进行实验,实验结果显示,本文改进的基于深度学习的哈希算法能更好的适应海量图像检索的要求,验证了改进方案的有效性。