论文部分内容阅读
目标检测是计算机视觉领域基本任务之一。目前存在的2D目标检测算法可以给出目标在RGB图像中的矩形边界框和相应类别。但2D目标检测具有局限性,无法满足生活在三维世界中人们的特定需求。3D目标检测会给出目标的3D边界框,在某些应用场景如自动驾驶、机器人领域、三维场景重建等发挥着重要的作用。单目相机相较于其它传感器具有价廉、易获取等特点,所以仅仅基于单目视觉完成3D目标检测具有潜在的商业价值和深远的研究意义。本文的主要研究内容和贡献如下:本文将3D目标检测任务拆分成几个子任务,包括2D目标检测模块、维度预测模块、旋转角预测模块、几何约束模块。每一个子任务负责估计3D目标检测涉及到的特定参数。从而将一个复杂的问题分解成几个较简单的子问题,联合各子问题的解便得到原问题的解。(1)本文提出了一种基于交并比(Intersection over Union,IoU)的维度预测损失函数。本文将计算矩形边界框IoU算法扩展到三维空间,提出了针对维度预测场景下的计算3D边界框IoU的算法。与传统的损失函数将预测的每个维度分量单独计算误差相比,基于IoU的损失函数考虑边界框所有属性的内在联系,且具有尺度不变性特点。(2)本文提出了一种间接预测目标旋转角的策略。基于单目视觉实现3D目标检测仅仅提供了 RGB图像信息,而目标旋转角与目标在RGB图像中的外观无直接的联系。为此本文选择预测局部旋转角并通过几何关系计算出最终需要的目标旋转角。(3)针对基于单目视觉完成3D目标检测任务时目标深度信息获取困难的问题,本文依据几何约束原理,通过最小二乘法计算出目标相对于观测者的位置坐标。同时本文提出一种优化网络,对目标位置坐标进行修正。结合2D目标检测,维度和旋转角预测结果完成最终的3D目标检测任务。实验阶段以多个指标对本文提出的3D目标检测算法性能进行评估,结果表明与其他检测算法相比本文提出的算法有更高的检测精确度。