论文部分内容阅读
图像深度估计是计算机视觉领域中一项重要的研究课题。深度信息是理解一个场景三维结构关系的重要组成部分,准确的深度信息能够帮助我们更好地进行场景理解。在真三维显示、语义分割、自动驾驶及三维重建等多个领域都有着广泛的应用。传统方法多是利用双目或多目图像进行深度估计,最常用的方法是立体匹配技术,利用三角测量法从图像中估计场景深度信息,但容易受到场景多样性的影响,而且计算量很大。单目图像的获取对设备数量和环境条件要求较低,通过单目图像进行深度估计更贴近实际情况,应用场景更广泛。深度学习的迅猛发展,使得基于卷积神经网络的方法在单目图像深度估计领域取得了一定的成果,成为图像深度估计领域的研究热点。但是单目深度估计仍面临着许多挑战:复杂场景中的复杂纹理和复杂几何结构会导致大量深度误差,容易造成局部细节信息丢失、物体边界扭曲及模糊重建等问题,直接影响图像的恢复精度。针对上述问题,本文主要研究基于深度学习的单目图像深度估计方法。主要工作包括以下两个方面:(1)针对室内场景中复杂纹理和复杂几何结构造成的物体边界扭曲、局部细节信息丢失等问题,提出一种基于多尺度残差金字塔注意力网络模型。首先,提出了一个多尺度注意力上下文聚合模块,该模块由两部分组成:空间注意力模型和全局注意力模型,通过从空间和全局分别考虑像素的位置相关性和尺度相关性,捕获特征的空间上下文信息和尺度上下文信息。该模块通过聚合特征的空间和尺度上下文信息,自适应地学习像素之间的相似性,从而获取图像更多的全局上下文信息,解决场景中复杂结构导致的问题。然后,针对场景理解中物体的局部细节容易被忽略的问题,提出了一个增强的残差细化模块,在获取多尺度特征的同时,获取更深层次的语义信息和更多的细节信息,进一步细化场景结构。在NYU Depth V2数据集上的实验结果表明,该方法在物体边界和局部细节具有较好的性能。(2)针对已有非监督深度估计方法中细节信息预测不够准确、模糊重建等问题,结合Non-local能够提取每个像素的长期空间依赖关系,获取更多空间上下文的原理,本文通过引入Non-local提出了一种新的非监督学习深度估计模型。该模型利用非监督学习的方法采用视频图像序列作为输入,并结合相机运动来估计室外场景的深度。最后,在KITTI数据集上的实验结果表明,该方法估计得到的深度图在物体边界处更加清晰,能够恢复更多的细节信息。另外,提出的模型也具有很好的鲁棒性,可适用于不同的深度估计网络模型中。