论文部分内容阅读
目标检测作为计算机视觉的基本技术,旨在对图像中预定义目标类的所有实例进行定位和分类。当前,虽然一些主流的目标检测算法在检测的精度和速度上取得了较好成果,但依然存在目标特征信息利用不充分、检测结果中目标的分类置信度与定位精度间缺乏一致性的问题。而注意力模型能够辅助网络关注目标区域并提升网络对目标信息的利用度,因此为解决上述问题,论文研究了基于注意力模型的目标检测,提出了基于注意力图的非最大化抑制(Non-Maximum Suppression,NMS)优化算法和基于空间注意力图的目标检测优化算法。论文的主要工作,可以概括为:(1)非最大化抑制算法是实现目标定位的关键步骤,但算法会抑制一些定位精度高但置信度较低的边界框。为解决这一问题,论文提出了一种基于注意力图的非最大化抑制优化算法。通过反向传播目标的高层语义信息重构目标特征,并对其加权生成目标注意力图,然后将检测边界框的感兴趣概率(指归一化注意力图上所包含区域的概率累加值)和分类置信度进行加权得到感兴趣分数,将其作为非最大化抑制算法的排序关键字可以获得目标的最佳边界框。基于PASCAL VOC2007、PASCAL VOC2012和MS COCO数据集进行实验,实验结果验证了该算法的有效性。(2)自下而上的图像信息包含了目标和背景等区域特征,能够关注到目标区域和其它区域的联系;自上而下的高层语义信息是底层图像信息到顶层输出信息的映射,能够关注到目标的典型特征。基于此,论文提出了基于空间注意力图的目标检测优化算法。该算法将自下而上的图像信息与自上而下的高层语义信息结合,扩大图像中目标的覆盖域从而提取更丰富的目标特征。在Faster R-CNN网络自下而上的检测流程中,通过引入Transformer注意力模块增强图像中各区域间的联系并生成目标的感兴趣区域图,然后将其与自上而下的目标高层语义信息结合,生成完整的目标注意力图,最后根据目标注意力图生成空间注意力图,优化用于分类和回归的目标特征信息。在PASCAL VOC2007、PASCAL VOC2012和MS COCO数据集上的实验结果,表明了该算法有效提高了目标的检测精度。