论文部分内容阅读
交通场景下的运动目标检测是计算机视觉领域中的重要研究方向,同时也是无人驾驶和辅助驾驶系统的重要组成部分。然而复杂多变的背景以及运动目标自身的运动属性,单帧图像中普遍存在着运动模糊、失焦模糊以及目标遮挡等问题,这都给运动目标检测任务带来了巨大挑战。鉴于以上问题,如果直接使用基于静态图像的目标检测器,效果并不理想。但是经过分析发现,在一组连续的视频帧中,总会存在若干各高质量特征的图像帧,能够使目标检测器表现出理想的性能。因此,本文改进基于静态图像的目标检测器,通过提取目标的运动信息,融合相邻帧特征,从而提升当前帧的特征质量。主要工作内容如下:本文设计并实现了一种基于可变形卷积的特征对齐网络。由于目标在不同图像帧中的空间位置和姿态均不一致,如果直接融合特征,会导致多个时刻的特征错位叠加,反而不利于目标检测,因此在特征融合先必须进行特征对齐操作。本文探究了Farneback光流法和可变形卷积在特征对齐方面的表现,并最终确定使用可变形卷积来实现特征对齐。该卷积可以学习目标特征在两帧之间的像素级对应关系,并利用其强大的空间变换能力进行特征映射。首先输入当前帧和相邻帧的特征图,利用基于可变形卷积的网络结构对目标的运动信息进行建模,并将相邻帧的特征映射到当前时刻。为了聚合相邻帧的特征,本文实现了时空特征融合模块。在融合特征的过程中,本文使用余弦相似度作为距离度量,特征越相似余弦相似度越高,从而权重越大。同时本文利用了残差结构,降低训练难度。这种融合方式根据特征对任务的贡献大小,有效的将不同时间和不同空间上的特征聚合到一起。本文首先将对齐后的特征图通过权重网络,计算余弦距离并归一化权重,然后对相邻帧的特征加权求和,即可得到聚合后的特征。本文使用CenterNet网络作为目标检测子网络,用于在融合后的特征图上检测运动目标。CenterNet网络是单阶段的目标检测器,相较于Faster RCNN两阶段目标检测器,速度方面具有更大优势。同时CenterNet网络不使用Anchor作为先验候选框,因此不需要人工手动设计参数,提高了网络在不同数据集上的泛化性能。为了在保证检测精度的前提下,提升模型速度,本文通过图像相似度、图像清晰度以及目标运动尺度进行了问题帧的选取,并只在问题帧进行特征融合。为了验证改进的运动目标检测器的效果,本文结合UA-DETRAC和KITTI两个交通场景数据集设计实验,从数据集的目标类别、检测难易程度等多个角度对改进模型的性能进行分析研究,同时与目前常用的目标检测模型以及改进前的模型进行对比,验证了本文算法的有效性。