论文部分内容阅读
目标检测对物体进行识别和定位,在视频监控、智能机器人、自动驾驶等视觉应用系统中承担着对场景进行基础建模的重要作用。由于深度学习的引入,基于静态图像的目标检测算法有了性能上的大幅进步。然而,在实际的应用场景中,视觉系统的输入通常是连续的视频,而不是独立的图像。直接将静态图像目标检测算法应用于视频的每一帧,会出现以下问题:(1)视频图像质量往往会由于运动模糊、尺度变化、目标遮挡等原因出现较为明显的下降,单帧图像无法提供目标的准确信息;(2)视觉系统要求实时性,对每一帧都进行特征计算,算法运行速度无法达到要求;(3)视频图像具有时空一致性,每帧独立检测没有充分利用时序信息。本论文研究基于特征传播与融合的视频目标检测算法。其中,特征融合模块通过建模目标的时空关系,提升了算法的检测精度;特征传播模块通过利用相邻图像的冗余性,提升了算法的检测速度。本论文的主要工作内容和创新性成果包括以下三个方面:1.提出了一种基于循环神经网络的视频目标检测算法。循环神经网络具有记忆保留功能,可以提取视频的时序信息。本算法对传统的循环神经单元进行改进,用于图像帧间的特征传递与聚合,完善当前帧的特征表达。为了减轻运动偏移对聚合模块带来的影响,本算法利用光流进行图像帧间的特征对齐,光流计算融入到网络中,算法框架保持端到端结构。本算法符合因果性的实际系统要求,即在检测当前帧时,不利用将来的信息。在公开数据集Image Net VID上的实验表明,本算法有效提升了视频目标检测的精度,即使与非因果性的各种算法相比,也能达到更优或者相近的性能。2.提出了一种基于自注意力机制的视频目标检测算法。针对循环神经网络的短距离依赖性,本算法利用自注意力机制代替循环神经网络构建特征聚合模块。自注意力机制对近程和远程信息都具有直接的捕获能力,同时可以增加计算的并行性。本算法直接基于感兴趣区域进行特征聚合,一方面建模了目标之间的关系,另一方面避免了基于光流的特征对齐操作。为了充分挖掘视频全局信息,本算法对输入视频事先进行打乱,使得每一帧图像都可以获得若干的随机辅助帧。在公开数据集Image Net VID上的实验表明,本算法相较其他现有算法,具有更优的精度性能。3.提出一种基于关键帧策略的快速视频目标检测算法。密集的特征计算和聚合虽然显著地提升了检测精度,但是损失了运行速度。本算法引入了关键帧的策略,提出了一种新的视频目标检测框架,即关键帧进行特征的计算和聚合,而非关键帧进行特征的传播,实现精度和速度的平衡。其中,关键帧到非关键帧的特征传播由基于光流的传播模块完成。关键帧之间的聚合可以由基于改进循环神经网络的聚合模块完成,也可以由基于二维自注意力机制的聚合模块完成。在公开数据集Image Net VID上的实验表明,本算法在明显提升检测速度的同时,也能获得比逐帧检测的方法更优的精度。