论文部分内容阅读
随着计算机技术的发展以及各种成像设备的普及,当前的互联网上累计了海量的地标和街景图像数据。给定查询图像,如何高效而精确地从这些大规模的图像集合中检索出内容相似的图像,成为了许多应用中的迫切需求。论文针对地标图像检索以及街景图像位置识别,围绕基于词包模型的地标图像检索方法中的爆发性问题、基于深度学习的地标图像检索和街景图像位置识别方法以及基于矩阵分解的相似度搜索方法开展研究。主要的研究工作如下:
(1)提出分组爆发性匹配问题的处理方法。已有的爆发性问题处理方法关注于处理图像内和图像间一对多模式的爆发性匹配,忽略了由查询图像上相似的局部特征所导致的多对一模式的分组爆发性匹配。论文提出分组爆发性问题处理方法,其在查询图像上显式地检测爆发性特征的分组,然后利用分组信息来降低爆发性匹配所贡献的相似性权重。在地标图像检索和街景图像位置识别上的实验结果表明该方法能够有效地提升检索精度,并且相容于已有的爆发性处理方法。
(2)提出后处理阶段的爆发性匹配处理方法。在地标图像检索中,经过空间校验之后的后处理阶段仍然存在着爆发性匹配问题,这些特征匹配大多是一对多或空间聚集模式的匹配。论文提出后处理阶段的爆发性匹配处理方法,利用局部特征的几何形状和视觉单词信息,删除不符合全局尺度变化的错误匹配以及一对多模式的冗余匹配,降低空间聚集匹配的贡献,从而提升最终的检索精度。在地标图像检索上的实验表明该方法能够适用于不同的检索模型并提升最终的检索精度。(3)提出融合全局与局部RMAC(Regional Maximum Activation of Convolutions)深度特征的地标图像检索方法。基于RMAC深度特征的地标图像检索方法中忽略了查询图像的全局信息,并且在目标定位阶段引入了定位误差。论文针对这一问题,提出融合全局和局部RMAC的地标图像检索方法,该方法首先使用查询图像的全局RMAC特征进行初始过滤,然后在目标定位之后将图像的全局和局部RMAC特征进行拼接作为图像的表示来进行重排序和查询展开。在地标图像检索上使用不同深度特征的实验结果表明该方法能够以较小的计算开销显著地提升检索精度。
(4)提出基于NetVLAD(Network Vector of Local Aggregated Descriptor)深度特征的街景图像位置识别的后处理方法。街景图像位置识别问题中,基于NetVLAD深度特征检索出来的初始结果,在空间位置和图像内容上都有关联。为了进一步提升识别精度,论文提出基于位置融合的街景图像位置识别后处理方法,使用初始结果之间在空间位置和视觉内容上的互为近邻关系,对初始结果进行重排序。在街景图像位置识别上的实验结果表明该方法能够有效提升最终的识别精度。
(5)提出基于局部约束线性编码的相似度搜索方法。基于全局特征的图像检索通常需要进行相似度搜索,而当前基于稀疏编码的相似度搜索方法需要较长的离线字典训练时间。针对这一问题,论文提出基于局部约束线性编码的相似度搜索方法,其直接使用k均值聚类学习字典,使用局部约束线性编码对数据进行表示,可以在降低字典训练时间的同时降低编码误差。在地标图像检索上的实验结果表明该方法能够在相同的计算和内存开销下,降低离线训练时间并提升最终的检索精度。
(1)提出分组爆发性匹配问题的处理方法。已有的爆发性问题处理方法关注于处理图像内和图像间一对多模式的爆发性匹配,忽略了由查询图像上相似的局部特征所导致的多对一模式的分组爆发性匹配。论文提出分组爆发性问题处理方法,其在查询图像上显式地检测爆发性特征的分组,然后利用分组信息来降低爆发性匹配所贡献的相似性权重。在地标图像检索和街景图像位置识别上的实验结果表明该方法能够有效地提升检索精度,并且相容于已有的爆发性处理方法。
(2)提出后处理阶段的爆发性匹配处理方法。在地标图像检索中,经过空间校验之后的后处理阶段仍然存在着爆发性匹配问题,这些特征匹配大多是一对多或空间聚集模式的匹配。论文提出后处理阶段的爆发性匹配处理方法,利用局部特征的几何形状和视觉单词信息,删除不符合全局尺度变化的错误匹配以及一对多模式的冗余匹配,降低空间聚集匹配的贡献,从而提升最终的检索精度。在地标图像检索上的实验表明该方法能够适用于不同的检索模型并提升最终的检索精度。(3)提出融合全局与局部RMAC(Regional Maximum Activation of Convolutions)深度特征的地标图像检索方法。基于RMAC深度特征的地标图像检索方法中忽略了查询图像的全局信息,并且在目标定位阶段引入了定位误差。论文针对这一问题,提出融合全局和局部RMAC的地标图像检索方法,该方法首先使用查询图像的全局RMAC特征进行初始过滤,然后在目标定位之后将图像的全局和局部RMAC特征进行拼接作为图像的表示来进行重排序和查询展开。在地标图像检索上使用不同深度特征的实验结果表明该方法能够以较小的计算开销显著地提升检索精度。
(4)提出基于NetVLAD(Network Vector of Local Aggregated Descriptor)深度特征的街景图像位置识别的后处理方法。街景图像位置识别问题中,基于NetVLAD深度特征检索出来的初始结果,在空间位置和图像内容上都有关联。为了进一步提升识别精度,论文提出基于位置融合的街景图像位置识别后处理方法,使用初始结果之间在空间位置和视觉内容上的互为近邻关系,对初始结果进行重排序。在街景图像位置识别上的实验结果表明该方法能够有效提升最终的识别精度。
(5)提出基于局部约束线性编码的相似度搜索方法。基于全局特征的图像检索通常需要进行相似度搜索,而当前基于稀疏编码的相似度搜索方法需要较长的离线字典训练时间。针对这一问题,论文提出基于局部约束线性编码的相似度搜索方法,其直接使用k均值聚类学习字典,使用局部约束线性编码对数据进行表示,可以在降低字典训练时间的同时降低编码误差。在地标图像检索上的实验结果表明该方法能够在相同的计算和内存开销下,降低离线训练时间并提升最终的检索精度。