论文部分内容阅读
基于内容的图像检索一直是学术界的研究热点问题。其核心问题是,如何让计算机像人一样准确地理解图像的含义。近年来,深度学习技术在图像上的应用取得了瞩目的成绩,涌现出一批基于内容的图像检索(CBIR)系统,如百度识图等。“卷积神经网络+哈希学习”已成为解决图像检索最有效的方法之一。然而,现有的系统(如百度识图)多采用有监督学习训练神经网络,以高昂的人力标注成本换取神经网络的优异表现。另外,传统的无监督学习技术不能很好地反应图像高层次语义信息,因此较少被图像检索模型采用。随着移动互联网的快速发展,如果能够利用大规模用户主导产生的弱标注数据实现图像检索将会节约大量人力标注成本。但是,尽管弱标签数据含有图像的语义信息,其中仍存在非视觉性语义标签和标签含义模糊(同义词、一词多义)等问题。本文提出一套弱监督学习框架,利用用户产生的弱标注信息训练神经网络。具体步骤如下:一、本文使用词袋(BoW)模型将图像表示为向量形式,通过形成视觉词袋模型,计算每个标签对应图像集的TF-IDF向量的内聚距离、分离距离,通过比对标签间TF-IDF向量质心距离的大小,去除非视觉性语义标签。二、通过将标签表示为语义词向量来计算图像之间的语义相似关系,形成相似对和不相似对集合。三、根据语义相似关系训练卷积神经网络(CNN)。本文的CNN模型输出层为图像的哈希编码。训练目标为:让语义相似的图像对的汉明距离尽量接近,而语义不相似的则相互远离。通过动量梯度下降算法迭代更新目标函数。将图像映射为哈希码后,通过比对图像间的哈希码实现快速图像检索。本文使用MAP、Precision等度量方法在NUS-WIDE测试集上进行实验以验证提出的图像检索方法的性能。与BRE-CNN、LSH、ITQ、DSCH等先进算法做对比分析,结果表明,本文提出的基于弱监督哈希函数的卷积神经网络(Weakly-Supervised Hash CNN,WSH-CNN)方法在检索的精确度上优于上述几种方法。