论文部分内容阅读
无人机航拍下的目标检测是计算机视觉领域中的前沿研究课题。相关技术可应用在农业、建筑、快递、公共安全等各个领域。传统的“基于手动特征提取+分类器”的目标检测算法已无法满足精度要求。近年来深度学习技术在计算机视觉的很多领域取得了令人满意的结果,但当深度学习的目标检测方与航拍图像结合时,面临如下的挑战:由于无人机航拍图像具有高分辨率、背景复杂、目标分布密集、尺度变化大等特点,这些方法的检测精度有限,本文针对上述这些问题展开研究,主要的工作以及创新点如下:(1)针对类间目标差异较小的问题,本文在Faster R-CNN算法基础之上,通过增加可形变卷积模块来提升网络对于空间信息的建模能力。相比于传统的卷积方式,可形变卷积模块能更好的对物体的几何形变建模,对类间差异较小的目标有更好的甄别能力,同时也能提高定位精度。(2)针对无人机航拍图像背景复杂的特点,提出一种基于混合注意力机制的目标检测算法:HAM-Faster-RCNN(Faster R-CNN based on hybrid attention mechanism)。该算法在增加了可形变卷积模块的Faster R-CNN的基础上引入混合注意力模块。混合注意力模块由通道注意力模块和空间注意力模块组成,能极大的扩展卷积神经网络的容量,提升深度卷积特征的表征能力。实验表明,新的目标检测框架在无人机航拍数据集VisDrone2018-DET上优于大部分的目标检测算法,较最新的two-stage的目标检测器高约2.4%的mAP。(3)针对尺度问题,提出了一种模型融合策略:weighted-NMS。通过对各个模型目标置信度加权后经过NMS的操作,获得了不小的精度增益。同时实验表明,对比一般的NMS方法以及soft-NMS融合多模型的方法,加权的NMS较单一模型提高了约2.2%的mAP。