论文部分内容阅读
人脸图像检索,就是在人脸图像数据库中搜索与检索图像属于同一个人的人脸图像。随着社交网络在智能移动服务上的日益普及,包含人脸的图像和视频呈爆炸式增长。如何在海量人脸数据库中快速、准确地检索出目标人脸成为计算机视觉领域中一个有吸引力的研究方向。当前大规模人脸检索面临的主要挑战是同类差异大、计算时间和存储成本高。因此,有必要开发出有效的人脸图像检索方法来解决上述两个问题。大多数现有人脸图像检索方法的性能往往取决于所使用的视觉特征。传统的检索方法多采用手工特征来表示人脸图像的视觉内容。然而,手工特征并不能很好地揭示人脸图像的深层次语义信息,往往限制了人脸图像检索的性能。近年来,卷积神经网络(CNN)在目标识别、图像分类等计算机视觉任务中表现出了惊人的性能。从图像中学习到的CNN特征更加健壮,能够很好地捕捉图像潜在的语义结构。深度哈希方法将CNN与哈希算法相结合,旨在学习具有高级语义的人脸特征并将其映射成紧凑的二进制哈希码,提高检索精度的同时又能减小存储空间和缩短检索时间,近年来该方法引起了人们的广泛关注。现有的深度哈希方法通常存在着分离特征提取和哈希编码阶段、忽略哈希编码之间的信息冗余、只关注图片对之间的相似关系而使训练难度增大等问题。本文针对这些问题,提出了一种新的深度度量哈希(Deep Metric Hashing,DMH)方法用于大规模人脸图像检索。该方法将深度学习、哈希编码和度量学习结合到一个统一的端到端框架中,来学习具有区分性的紧凑哈希码。本文对深度结构和监督信号进行了详细的探讨,具体来说:(1)为了得到高质量的哈希编码,本文借鉴DenseNet网络的设计思想,设计了一个包含稠密卷积块的深度网络来提取多尺度、具有鲁棒性的特征。其中,该稠密块以一种前馈的方式将每一层卷积与后边卷积层进行连接。(2)为了减少哈希码编码之间的信息冗余并充分利用特征的空间信息,设计了一个由卷积层和全局平均池化层构成的模块(Convolution-and-Global AveragePooling,CGA),生成紧凑哈希码的同时又能降低大量参数。(3)此外,组合“Softmax Loss+Center Loss+Quantization Loss”监督信号来最小化哈希码的预测误差,学习具有区分性的紧凑哈希码。(4)在两个大规模人脸图像数据集上的实验结果表明,与一些最先进的哈希方法相比,该方法具有更好的性能。