论文部分内容阅读
在当今社会,高速发展的互联网技术影响着人类生活的各个方面。在这个信息交互频繁的时代,互联网中积累了大量的图像数据。如何有效的组织和利用这些各式各样的图像数据,成为了一个目前亟待解决的问题。这也催生了基于内容的图像识别与检索技术的兴起和发展。随着图像数量的增加,图像检索精度与检索速度面临着巨大的挑战。哈希方法以其高效性与低内存占用在图像检索技术中配受青睐。同时,得益于深度学习技术在计算机视觉领域中的飞速发展,深度哈希技术逐渐成为图像检索领域中的主流方法。在已知的端到端的深度哈希技术中,人们只关注图像之间的相似性,而忽略了图像本身的语义信息,使检索模型的性能受到限制。而且在大规模数据训练中忽略了标签空间对训练过程带来的影响,使得模型在训练的过程中难以收敛。本文针对以上问题,对目前主流的深度哈希方法进行了改进,提出了一种结合图片本身语义信息与图片相似性的深度哈希方法,提升检索模型的性能,并且使用异步训练方法与优化数据生成解决了大规模数据与大标签空间数据在训练过程当中出现的网络不收敛,训练不稳定等问题,提高了检索的精度。本文进一步设计并实现了一种基于GPU的多进程多层次的并行检索方案,加快了大规模数据集上的检索速度。本文的具体工作如下。1)提出了一种多任务深度哈希方法,在现有的深度哈希方法上,采用了分类任务和哈希编码任务结合的深度学习方法,将分类损失和哈希损失结合,尽可能得利用图片的语义信息对哈希编码任务进行指导学习。最终得到一个端到端的特征提取与哈希编码多任务网络,使用MS5W数据集(中科视拓公司私有数据集,包含50000多个人脸标签340万人脸图像数据。)进行训练,在MSAS(该数据集为微软人脸数据集与格林深瞳公司公开的亚洲名人人脸数据集混合清洗得到的,具有90000多个人脸标签,510万人脸图像数据)数据集上进行了验证,证明该方法的有效性,使模型性能提升了2个MAP(Mean Average Precision)指标。2)设计并实现了性能更好的网络结构,以ResNet网络结构为基础,使用更合理的特征编码方式,使网络的训练过程更加稳定,收敛速度更快。使用该网络可以得到更高的检索精度。该网络在MSAS数据集上测试并提升了 1-2个MAP指标。3)使用用Triplet Loss代替Softmax Loss作为分类损失函数,解决了大标签空间数据训练困难的问题。设计并使用了一种高效的数据输入方式,使得该网络的训练更加稳定,使用异步训练以及线上生成三元组的方法,使得网络可以迅速收敛。4)基于汉明排序的基础上提出了一种基于GPU多层次多线程的并行批次检索策略,使得在损失一定2%-3%精度的条件下,检索速度可以提高50多倍。最终在百万级数据库中完成单张图片检索速度为1.8ms。