论文部分内容阅读
目标检测是计算机视觉研究中的一个经典任务,有许多重要应用如自动驾驶,安全监控等。目标检测旨在在图像或视频序列中定位出感兴趣的目标并进行分类。得利于深度学习在目标检测领域取得的巨大的成功,各种基于深度学习模型的目标检测算法不断涌现,极大地推动了该领域的发展,当前目标检测中主流的算法都是基于深度学习技术。但用来训练深度学习网络的数据往往面临着类不平衡问题,即某些类别的样本数量远远大于其他类别的样本数量,这类问题会显著降低深度学习模型的性能。在目标检测任务中,往往目标像素在图像中的占比远远少于背景像素(类间不平衡);同时检测模型本身结构会导致数据复杂度不同,即简单样本的数量往往多于复杂样本的数量(类内不平衡);此外,目标检测任务实际上包含两个子任务即定位和分类,它们对应不同的目标函数,在训练阶段中它们的损失函数对总损失的贡献程度不一样,往往分类任务的损失大于定位的损失(目标函数不平衡)。这类问题的存在会导致基于深度学习的目标检测器的性能显著下降,目前已有一些措施被提出处理类不平衡问题,但这些方法要么需要相当大的额外内存和计算量、难以训练,要么在两级检测器上基本没有增益。因此钻研并解决基于深度学习的目标检测中类不平衡问题是有价值而且有挑战性的工作。本文分别从数据和算法层面提出适宜的方案,主要工作及创新点如下:1.设计应用在检测场景下的数据增强算法:基于深度学习技术的目标检测模型面向不平衡数据时,更容易出现过拟合问题。因此本文考虑对训练数据采用块遮挡和通用扰动生成对抗样本,进行对抗训练从而减少网络的过拟合程度。2.设计子网络辅助检测候选框的训练:现有的主流检测框架R-CNN系列的网络结构,在第一阶段生成的候选框中存在大量的背景区域,在第二阶段通过随机采样控制前景和背景候选框平衡,但这会导致训练时梯度由大量的简单样本主导。本文考虑利用子网络辅助第二阶段的采样,给以不同候选框合适的权重,填补困难样本和简单样本分布不均衡带来的影响。3.设计约束优化方法:在样本较少的类别中,模型容易因为训练集中的偶然性从而依据无关的特征来进行判断,进而造成了模型的过拟合。而增加特征间的方差能使得模型的特征分布更广,降低模型特征的冗余度,因此本文设计一种针对方差惩罚的目标函数,从而使得模型的训练更可控。