论文部分内容阅读
图像检索问题作为计算机视觉的一个基本问题,已经有很多学者对它进行过分析和研究。本世纪初,人们逐渐认识到低级特征和高级语义特征之间固有的“语义鸿沟”,开始涉及基于语义的图像检索,但收效甚微。近年来,深度学习技术为饱受到传统人工特征困扰的基于语义的图像检索问题打开了新的大门。相比较传统方法,深度学习模型在挖掘深层次特征上有惊人的能力,更可能满足图像语义特征学习。但是,深度学习本身也处在一个快速发展的阶段,并不是完全成熟的工具,在使用过程中需要克服一些深度学习本身带来的问题。例如,深度模型在实际训练中的参数优化问题。同时我们该选择什么样的深度模型来应对基于语义的图像检索问题,是我们首先需要考虑的。本文梳理了图像检索技术和深度学习技术的发展历程。在此基础上,提出了一种基于语义的图像检索框架。该框架中主要包含三部分:(1)特征提取网络,在本文中称为多层级的图像语义特征提取网络,框架通过该网络提取语义特征;(2)特征存储结构,它将提取出来的特征降维并转化成图像语义距离度量公式可以计算的格式;(3)图像语义距离度量公式,框架最终通过它实现图像语义距离的计算。多层级的图像语义特征提取网络是该框架的核心,它的性能直接影响着整个框架的最终精度,该网络能通过其层级结构分次对图像中的语义特征进行提取,独特的结构设计使得它可以挖掘图像中更深层的语义。特征存储结构将提取出来的图像语义特征转化成一种更低维更易计算的融合特征表,而图像语义距离度量公式则将通过融合特征表计算图像之间的语义距离,从而生成检索结果序列。在基于语义的图像检索框架中,多层级的图像语义特征提取网络可以被替换成其他分类网络,以灵活地应对不同的待检索图像。在多个数据集上的测试结果表明,与现有方法相比,本文框架能够更加准确地完成基于语义的图像检索工作。