论文部分内容阅读
单目图像场景深度结构研究一直是当前计算机视觉任务中重要的组成部分,该任务关注于如何从单目图像中获取与之相对应的场景深度结构。在Marr奠定的计算机视觉理论中,一直将其作为人类视觉的重要任务。场景深度结构一般指的是同一场景中的不同物体在同一个观测设备下形成的三维空间中的拓扑结构关系,在单目图像中这种关系会反映为二维平面关系,如何从单目图像中获取对应目标的前后排序关系是场景深度拓扑结构最终所要解决的问题。在当前单目图像深度场景深度排序任务中依然存在着几大挑战:(1)物体分布杂乱的复杂场景中获取深度线索存在困难,杂乱无章的物体以及目标的悬浮情况直接影响了消失点的检测,导致深度线索缺失;(2)遮挡作为恢复目标区域深度关系的重要线索而存在,但是在某些复杂场景中,经常出现部分物体之间无直接遮挡关系的情况,甚至有些遮挡关系与现实场景中的实际情况出现冲突。针对这些问题本文开展了以下工作:(1)本课题整理了目前深度特征获取和分析的研究现状,从场景深度估计的关键步骤、公开数据集和评价标准等方面进行了充分地阐述。课题交代场景深度信息所采用的表征方法,并从非深度网络,深度网络和图模型三个方面交代了现有方法的基本理论,为场景深度估计和拓扑结构研究奠定了理论基础。(2)针对目标场景中消失点检测导致线索缺失的问题,本课题研究并采用像素级深度估计取代对应的消失点线索,并构建了一个基于多尺度空洞卷积的U型网络。该模型在编码阶段不丢失分辨率的情况下实现扩大感受野的功能,同时加入多尺度级联操作来避免信息冗余的发生。为兼顾不同尺度物体的深度估计,模型采用采样跨层汇集,传递相同尺度的场景特征信息,有效提高了模型收敛精度。我们在公认的场景深度排序NYU-Depth-V2数据集上实验证明了本文方法的优势。(3)针对遮挡判定失效或与遮挡关系发生冲突的问题对深度排序结果造成的影响,本课题提出使用将区域遮挡结果作为局部深度线索,并结合作为全局深度线索的深度估计信息,获取最终的深度排序结果。为有效整合局部深度线索和全局深度线索,使用隐马尔科夫模型对两种线索进行整合,通过两种深度线索来构建图模型。该图模型基于EM算法的参数学习来获取相关模型参数以及推理,获得最终的深度排序结果。在公认的场景深度排序NYU-Depth-V2和Make3D数据集上实验证明,本文提出方法可以有效改善场景深度拓扑排序研究,并在相应的误差和精度上,优于当前场景深度排序的主流方法。