论文部分内容阅读
场景理解是计算机视觉中重要的研究课题,被广泛地应用于机器人自主导航、自动驾驶、无人机和盲人辅助系统开发等领域。场景中的深度信息和语义信息是场景理解的关键,对于单张RGB图像而言,可通过单目深度估计和语义分割来分别获取像素级别的深度信息和语义信息。近年来,基于深度学习的单目深度估计算法和语义分割算法取得了不俗的成绩,但是由于场景的复杂性和多样性,仍面临着诸多挑战。针对目前仍存在的一些问题,本文做了以下研究工作:
针对单目深度估计和语义分割这类像素级密集预测任务,本文设计了一个端到端的基于全卷积网络的像素级场景理解算法框架,可独立应用于这两个任务。该框架采用编码-解码结构,以ResNet作为编码器进行特征提取,并利用空洞卷积增大感受野;解码器部分使用双线性插值逐步进行上采样,并对编码器和解码器中相同大小的特征图进行拼接融合,最后通过预测层实现密集预测。
针对单目深度估计中场景空间结构和几何细节难以恢复的问题,本文设计了一种将深度、梯度、表面法向量等三个方面的误差结合起来的联合型损失函数,降低了预测的深度图模糊失真的程度。针对语义分割中不同类别边界难以划分的问题,本文提出了边界感知损失,利用边界信息进行显式约束,使得分割结果中边界更加清晰,物体的形状和轮廓更加规则。
对于像素级密集预测任务而言,低级特征和高级特征都很重要,但它们的分辨率和信息层级差异太大,导致基于跳跃连接的特征融合方式存在不合理性。为此,本文提出了一种多尺度特征自适应融合模块,能够取代跳跃连接,可以灵活地应用到基于编码-解码结构的全卷积网络中。实验结果表明,相比于跳跃连接,该模块能够更有效地促进低级特征和高级特征的融合,使得单目深度估计算法和语义分割算法的精确度均得到提升。
场景中的深度信息和语义信息具有相关性,可通过多任务模型同时获取这两种信息,来降低计算量并提高预测效率。为此,本文提出了一个多任务场景理解网络,可同时进行单目深度估计和语义分割。在该多任务模型中,单目深度估计和语义分割共用编码器,共享编码器的特征表示;对于解码过程,本文设计了独立式解码和交互式解码两种方式,分别对应于独立解码型多任务网络和交互解码型多任务网络。实验结果表明,交互式解码在两个子任务上都取得了比独立式解码更好的性能,并且交互解码型多任务网络也优于独立的单任务模型,这均说明深度信息和语义信息具有相关性和互补性,同时学习两种信息能够彼此促进,共同受益。
针对单目深度估计和语义分割这类像素级密集预测任务,本文设计了一个端到端的基于全卷积网络的像素级场景理解算法框架,可独立应用于这两个任务。该框架采用编码-解码结构,以ResNet作为编码器进行特征提取,并利用空洞卷积增大感受野;解码器部分使用双线性插值逐步进行上采样,并对编码器和解码器中相同大小的特征图进行拼接融合,最后通过预测层实现密集预测。
针对单目深度估计中场景空间结构和几何细节难以恢复的问题,本文设计了一种将深度、梯度、表面法向量等三个方面的误差结合起来的联合型损失函数,降低了预测的深度图模糊失真的程度。针对语义分割中不同类别边界难以划分的问题,本文提出了边界感知损失,利用边界信息进行显式约束,使得分割结果中边界更加清晰,物体的形状和轮廓更加规则。
对于像素级密集预测任务而言,低级特征和高级特征都很重要,但它们的分辨率和信息层级差异太大,导致基于跳跃连接的特征融合方式存在不合理性。为此,本文提出了一种多尺度特征自适应融合模块,能够取代跳跃连接,可以灵活地应用到基于编码-解码结构的全卷积网络中。实验结果表明,相比于跳跃连接,该模块能够更有效地促进低级特征和高级特征的融合,使得单目深度估计算法和语义分割算法的精确度均得到提升。
场景中的深度信息和语义信息具有相关性,可通过多任务模型同时获取这两种信息,来降低计算量并提高预测效率。为此,本文提出了一个多任务场景理解网络,可同时进行单目深度估计和语义分割。在该多任务模型中,单目深度估计和语义分割共用编码器,共享编码器的特征表示;对于解码过程,本文设计了独立式解码和交互式解码两种方式,分别对应于独立解码型多任务网络和交互解码型多任务网络。实验结果表明,交互式解码在两个子任务上都取得了比独立式解码更好的性能,并且交互解码型多任务网络也优于独立的单任务模型,这均说明深度信息和语义信息具有相关性和互补性,同时学习两种信息能够彼此促进,共同受益。