论文部分内容阅读
基于内容的图像检索技术旨在根据用户提供的输入图像,寻找在图像库中相同或相似的图像作为输出。此技术如今被用在了诸多领域,在网络购物方面,用户可以利用此技术快速寻找自己想要的商品。在医疗方面,可以用此技术进行病症搜索,寻找身体中可能出现疾病的部位,防范于未然。虽然当今图像检索技术已有长足发展,但现有方法的检索效果仍然有进步的空间。当前大多数方法使用了基于深度学习的技术,能够在原图中提取出许多表征能力强的高维特征,但其对主体信息的提取与表达依然不够理想,从而会对检索结果产生不利影响。本文针对上述问题,提出了基于显著性检测的两段式图像检索模型。在模型的第一阶段,本文会对图像中的主体目标进行处理与抽取,第二阶段则利用抽出的图像主体进行特征提取。针对现有方法对图像中主体信息提取得不够好、对图像中上下文信息的融合做得还不够到位的问题,本文提出了基于多注意力的显著性目标检测方法,即本文的第一阶段。此方法在注意力提取方面,通过上下左右四个方向的扫描以充分获得全局上下文信息,同时利用全卷积结构对图像的局部上下文信息进行抽取。在上下文信息的聚合方面,利用残差结构结合编码解码网络,提出了先捕获全局信息,在此基础上再进行局部信息抽取的方法。最后通过对比实验,验证本方法的有效性,表明通过此方法能够获得信息更加全面的特征,从而进行更好的显著性预测。在获得图像主体目标后,需要对该主体的特征进行进一步抽象与精简,即本文的第二阶段。而当前特征提取方法在图像检索任务中对图像特征的信息重组与拼接方面还不够理想,针对此问题,本文使用了可训练的池化方法,此方法可以随着训练过程的推进,获得更适合本任务的参数值,从而通过该池化方法能得到表征能力更强的图像表示。通过实验,可以得知通过此方式得到的图像表示在检索任务上能获得不错的结果,验证了该方法在检索任务中的有效性。