论文部分内容阅读
三维目标检测是计算机视觉中比较重要的任务之一,在自动驾驶、机械臂抓取、增强现实等领域都有着重要的应用。基于点云的三维目标检测相比图像的二维目标检测更具挑战性,点云的稀疏、不规则等属性对算法的设计提出了更高的要求。本文主要研究基于深度学习的三维目标检测算法,主要研究内容如下:(1)本文提出了一个新的基于点云的三维目标检测方法—Frustum Conv Net(FConv Net)。该方法借助于当前成熟的二维目标检测提供候选区域,使用一种新的点云分组方法——滑动平截头体来聚合局部点特征,将无序不规则的点云转化成规则的特征图,以便后续使用全卷积神经网络。F-Conv Net在室内SUNRGBD数据集和室外KITTI数据集上都取得了不错的结果,超过所有同时期的方法。(2)本文将提出的F-Conv Net的方法扩展到双目视觉设定下的三维目标检测。在这种设定下,只使用两张彩色相机图片作为输入而没有任何深度数据例如激光雷达点云的输入。与现有方法相比,我们提出的方法表现出明显的优势。(3)鉴于当前三维目标检测过于依赖二维目标检测并且二维检测很难检测到被遮挡的物体这一事实,本文在不依赖图像的三维目标检测算法Vote Net上进行改进,提出了点云和特征的二次提取和聚集以实现更好的边界预测。与基准结果相比,本文提出的方法有效地提高了SUNRGBD和Scan Net数据集上3D目标检测的性能。(4)针对Point Net++网络特征提取能力弱的特点,本文设计了一个语义感知的三维目标检测方法,通过将子流形稀疏卷积神经网络UNet预测的语义类别作为每个点的额外输入,在Scan Net数据集上的3D目标检测上取得了极大的性能提升。(5)本文将目标检测拓展到更加精细化的任务——实例分割和全景分割。通过设计的启发式算法来融合目标检测结果和语义分割结果,在Scan Net数据集点云实例分割和全景分割上取得了不错的结果,优于同时期所有已发表的论文工作。