基于深度学习的单目图像深度估计

来源 :河北师范大学 | 被引量 : 4次 | 上传用户:ZXX198811
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像深度估计是计算机视觉领域中一项重要的研究课题。深度信息是理解一个场景三维结构关系的重要组成部分,准确的深度信息能够帮助我们更好地进行场景理解。在真三维显示、语义分割、自动驾驶及三维重建等多个领域都有着广泛的应用。传统方法多是利用双目或多目图像进行深度估计,最常用的方法是立体匹配技术,利用三角测量法从图像中估计场景深度信息,但容易受到场景多样性的影响,而且计算量很大。单目图像的获取对设备数量和环境条件要求较低,通过单目图像进行深度估计更贴近实际情况,应用场景更广泛。深度学习的迅猛发展,使得基于卷积神经网络的方法在单目图像深度估计领域取得了一定的成果,成为图像深度估计领域的研究热点。但是单目深度估计仍面临着许多挑战:复杂场景中的复杂纹理和复杂几何结构会导致大量深度误差,容易造成局部细节信息丢失、物体边界扭曲及模糊重建等问题,直接影响图像的恢复精度。针对上述问题,本文主要研究基于深度学习的单目图像深度估计方法。主要工作包括以下两个方面:(1)针对室内场景中复杂纹理和复杂几何结构造成的物体边界扭曲、局部细节信息丢失等问题,提出一种基于多尺度残差金字塔注意力网络模型。首先,提出了一个多尺度注意力上下文聚合模块,该模块由两部分组成:空间注意力模型和全局注意力模型,通过从空间和全局分别考虑像素的位置相关性和尺度相关性,捕获特征的空间上下文信息和尺度上下文信息。该模块通过聚合特征的空间和尺度上下文信息,自适应地学习像素之间的相似性,从而获取图像更多的全局上下文信息,解决场景中复杂结构导致的问题。然后,针对场景理解中物体的局部细节容易被忽略的问题,提出了一个增强的残差细化模块,在获取多尺度特征的同时,获取更深层次的语义信息和更多的细节信息,进一步细化场景结构。在NYU Depth V2数据集上的实验结果表明,该方法在物体边界和局部细节具有较好的性能。(2)针对已有非监督深度估计方法中细节信息预测不够准确、模糊重建等问题,结合Non-local能够提取每个像素的长期空间依赖关系,获取更多空间上下文的原理,本文通过引入Non-local提出了一种新的非监督学习深度估计模型。该模型利用非监督学习的方法采用视频图像序列作为输入,并结合相机运动来估计室外场景的深度。最后,在KITTI数据集上的实验结果表明,该方法估计得到的深度图在物体边界处更加清晰,能够恢复更多的细节信息。另外,提出的模型也具有很好的鲁棒性,可适用于不同的深度估计网络模型中。
其他文献
介绍了下福水利枢纽工程船闸的设计标准和原则,论述了船闸输水系统的型式选择、系统布置及水力计算和设计过程。该船闸选择分散输水系统,经过实际运用,证明其设计经济合理,全球施
素质教育在体育教学中的一个重要的含义是全体性,即面向全体学生,旨在促进每一个学生的发展,使每个学生具有最起码的体育基础知识、运动能力和技能.另一个含义是差异性,人与
<正> 中华竹鼠(Rhi-zomyssinesis Gray)俗名竹根猪,在动物学分类上属啮齿目(Rodentia)鼠形亚目(Myomoypha)竹鼠科(Phizommyidea),具有较高的经济价值,是近年来驯化的一种皮肉
信息素养是中学生学习和发展的基础。信息技术课是以培养学生的信息素养为目标;倡导有利于培养学生信息素养的教学方式和评价方式的运用。然而,信息技术还是一门新兴学科,缺乏实
随着个人信息财产性价值不断显现,商事主体愈发重视对个人信息的收集和利用,此过程中产生了一系列侵犯公民个人信息的行为。目前我国民事法律体系中并未设立个人信息权,在理论界对个人信息的法律属性也有争议,裁判文书中就个人信息保护的论证避重就轻。本文的研究对象为手机APP用户个人信息,研究目的是在衡量手机APP用户、手机APP与信息实际利用者之间的利益平衡之下,分析应当运用何种规则保护手机APP用户的个人信