论文部分内容阅读
频等视觉数据呈现爆发式的增长。移动随着移动互联网技术的快速发展、移动设备的广泛普及,互联网中的图片、视视觉搜索(Mobile Visual Search,MVS)方法以图像、视频、3D模型、地图等视觉数据作为检索对象,利用移动智能终端设备采集和获取关联信息,能够在海量视觉内容中为用户提供有效的视觉信息检索方法,成为信息检索领域研究中的重要课题。然而,由于移动视觉搜索场景的移动性和泛在化的特点,相关研究存在诸多挑战:移动场景下图像数据极易受到外部环境的干扰,由此产生的图像噪声使得系统难以准确提取到图像中的语义信息内容,降低了移动视觉搜索的效率;此外,移动设备通常受到计算能力、存储空间和网络传输的限制,在这些限制条件下,传统的基于内容的图像搜索方法难以满足用户快速检索的需求。近年来,深度学习方法在计算机视觉领域得到广泛研究和应用,通过神经网络的逐层抽象和迭代,模型能够学习到图像深层语义信息,能够有效解决由于图像底层特征与高层语义之间的差距而产生的“语义鸿沟”问题;哈希方法旨在通过哈希映射将高维数据转换成低维度的表示形式,能够使图像特征序列更为紧凑,并且具备低存储需求、低计算成本、低传输成本的优点。深度学习方法和哈希方法为移动视觉搜索研究中的图像语义特征提取和快速检索问题提供了有效的解决方案。本文结合深度学习模型和哈希方法,针对移动视觉搜索领域研究中的图像深层语义特征提取和快速检索问题进行了深入研究,主要工作和研究成果如下:(1)提出了基于深度哈希的图像语义特征提取模型,利用深度卷积神经网络逐层迭代和抽象的特点使模型具备学习图像深层语义特征的能力,通过在神经网络模型结构层中嵌入哈希层的方法将深度学习和哈希算法有机结合,使模型学习到更为紧凑的图像语义特征表示,满足移动视觉搜索领域的图像语义特征提取和快速检索的要求。(2)提出了适用于移动视觉搜索场景的、用于模型训练的损失函数,考虑到移动视觉搜索的语义排序问题和模型过拟合问题,在softmax分类损失的基础上加入搜索排序损失项和L2正则项,使用该损失函数对基于深度哈希的图像语义特征提取模型进行模型训练,能够有效增强模型的学习能力和泛化性能;(3)构建了基于深度哈希的移动视觉搜索流程,使用本文提出的基于深度哈希的图像语义特征提取模型作为图像特征提取器,利用提取到的图像特征哈希序列与数据库中的图像样本索引进行匹配,通过欧式距离计算样本间的相似程度,根据计算的距离大小进行语义排序并返回Top k个搜索结果。(4)基于开源的深度学习框架MatConvNet搭建实验环境,在开源数据集PASCALVOC 2012上进行实验,实现了本文提出的基于深度哈希的图像语义特征提取模型和移动视觉搜索流程,并通过mAP、P@k=5、P@k=10、R@k=5、R@k=10以及图像特征维度大小对移动视觉搜索流程的准确性、全面性和检索效率进行全面评估;并且针对模型中的模型学习率、批量样本数的取值对模型的影响进行了对比实验,实验数据验证了本文提出的基于深度哈希的移动视觉搜索方法的有效性。