论文部分内容阅读
随着图像处理的信息量越来越大,基于文本的图像检索已越来越不合时宜。对此,研究者逐渐将研究的重心转向基于内容的图像检索,各种基于内容的图像检索算法也因此迅速兴起。而有效地表示图像内容对于大规模基于内容的图像检索而言,是一项意义重大的任务。由于二进制哈希码的计算和存储效率都比较高,二进制哈希算法已经引起了广泛的关注,但是同时提取SIFT描述子时,会降低算法的计算速度。这其中,深度学习作为目前机器学习研究中最火的一项技术,它可以通过建立模型让模型自己直接学习图片的特征,这样大大降低了因人工提取图片特征而产生的误差。而深度学习中的卷积神经网络由于其相对简单高效,提取的特征比传统的特征提取算法更为精确,因此成为了目前最常用的一项技术。卷积神经网络在图像检索方面已经取得了重大突破。卷积神经网络(CNN)的使用不仅可以让模型通过隐藏层学习到训练样本数据的二进制表示,而且可以让模型学习到图像的表示。首先,本文提出了一个简单但是高效的深度学习网络模型卷积神经网络,用此网络模型可生成二进制哈希编码,并以此进行快速的图像检索。另外,通过在深度卷积神经网络模型中添加一个隐藏属性,使得这个网络模型不仅能用领域相关的图像表示,而且可以去学习一系列的哈希函数。我们知道,大部分的监督学习算法为了学习到图像的二进制表示,一般都需要两张图片作为输入,而本文的深度学习方法则是通过一张图片作为输入来学习图像的二进制编码和图像表示,这样大大减少了计算量和存储空间。因此,本文提出的深度学习二进制哈希检索时,其检索速率很高,但是检索精度会有所降低;用浮点性特征做图像检索时,其检索精度高,但是计算量庞大,其检索速率十分低下。针对这一问题,本文提出了一种综合的由粗到精的检索方法,先利用二进制特征初步检索出与查询图片相似的图片,由于一个二进制编码可以对应很多不同标签的图片,因此,利用二进制特征检索出来的图片中有很多干扰图片,这一步是粗水平的检索。当我们再利用浮点型特征进一步剔除干扰图片,这一步是精细水平上的检索。这样不但保证了图像检索的精度,而且提高了图像检索的速度。在不同大小的数据集上,我们进行了三类实验:基于MNIST数据集的模型测试、基于CIFAR-10数据集的模型测试、基于Yahoo-1M数据集的模型测试。从这三类实验可得出以下结论:随着数据集的增大,本文提出的CNN模型相比于之前的模型仍能保持着高效稳定的性能,这进一步表明本文提出的模型适合大规模的图像检索。