论文部分内容阅读
近些年,关于图像检索的研究趋向于成熟,但是依然存在多个亟待解决的问题,如消除语义鸿沟,降低图像特征维度,提高图像检索速度等。最初研究学者们将哈希算法应用于图像检索中,有效地缓解了图像特征存储和计算的问题。但是又引出了哈希码与图像特征之间存在差异的问题。近些年,研究学者们将深度学习融入图像检索中,使得检索中能提取图像更深层次的特征。卷积神经网络与哈希算法结合形成图像检索模型是图像检索的发展趋势,但是这种模型并不成熟,而且卷积神经网络本身处于发展阶段,需要克服一些问题,如模型的构建,模型参数选择与优化,语义鸿沟等。本文则根据以上问题设计了合适的图像检索框架。论文主要工作如下:(1)学习并分析卷积神经网络工作原理和优化方法,同时研究了关于哈希函数的多种算法;(2)改进传统图像检索框架。本文利用任意两个图像的标签生成图像对标签作为预期值,并且将两个图像最终得到的特征值转换为这一对图像的实际值。网络的训练标准由利用单个图像的特征和标签改变为利用图像对的实际值和预期值;(3)本文改进了传统的用于特征提取的卷积神经网络模型VGG。在VGG模型基础上对网络架构进行了改进,用多层感知器和全局平均池化层替换了传统卷积层和全连接层,通过这个网络进行图像特征提取。改进后的卷积神经网络模型参数大量减少,简化了结构,提升了检索速度;(4)本文改进了网络学习算法,网络学习算法包含三个部分:哈希函数,损失函数和随机下降梯度算法。本文对学习算法中的损失函数进行了改进,本文的损失函数不仅包括目标值和实际值的损失项,还包括根据哈希码中比特之间的独立性和图像平稳性而得到的特征值与哈希码的差异以及实际图像哈希均值与哈希码均值0.5的差异。这个学习算法不仅减少了目标值与预期值的差异,还缓解了语义鸿沟,无论图像表示为哈希码还是特征值,都能够保证图像的平稳性。将上述的研究点整合为一个多标签图像检索框架。利用CIFAR-10,NUS-WIDE和Caltech101数据集对框架进行测试,与其他方法比较,本文框架检索的速度和准确率有所提升。