论文部分内容阅读
从单视角图像重建三维形状是计算机视觉的经典问题。对于该问题的研究与求解在虚拟现实、增强现实、自动驾驶等领域有广泛应用。近年来随着深度学习技术的快速发展,深度学习在计算机视觉的多个经典问题上取得了长足的进步并展现出了巨大的潜力。因此,越来越多的研究者尝试将深度学习应用到单图像的三维形状生成任务中来。由单张图像生成三维形状是一个欠定问题,对于该问题的求解通常依赖于利用先验知识消除歧义,而深度学习方法的优势就在于可以在无需人为设计中间表达和推断过程的情况下从大量数据中自动总结先验知识并用于三维形状推断。在已有的尝试中,深度学习方法展现了传统方法不具备的能力,不但能够重建单视角图像所对应的形状,对于单视角下不可见部分也能生成合理结果。
目前,国内外研究者们对于基于深度学习的从单张图像生成三维形状的研究已经取得了一些进展,但仍旧面临一系列挑战。具体地,如何将二维图像领域的卷积神经网络或者循环神经网络扩展到三维形状的生成中来,如何面向特定三维形状表达满足深度学习方法对于函数可导的需求,让网络学习何种先验以使得人工神经网络具备可扩展的三维形状推断能力,等等。本文围绕连续表面的生成任务进行相关研究,首先提出利用网络回归表面参数化映射实现端到端的多类物体表面网格的生成网络,基于该网络结构,深入分析了该类三维形状生成网络容易产生表面自交的局限性及其成因并提出了一种防表面自交的形状生成网络,最后进一步探索了具有复杂拓扑结构及开放类别目标的三维生成问题,设计了基于部件形状推断的三维网格生成网络。本文的主要工作与创新点包括以下三点:
1.本文从实际应用中对三维模型的需求出发,结合深度人工神经网络可以拟合任意连续函数的特点,提出了基于网格表面映射的三维表面生成网络。该网络将三维形状的表面表达为从一个预设凸表面到目标形状表面的映射函数,并以深度神经网络从输入图像预测映射函数参数的方式实现对三维形状的生成。该设计首次实现了端到端的由单视角图像生成多类别物体的连续表面网格的深度神经网络。
2.网格映射网络能够学习预测具有连续表面的三维形状主要得益于神经网络模型具有的高自由度能够拟合任意连续表面。但是这样的高自由度也使得网络难以对输出表面进行精细控制,容易出现表面自交重叠。同时,因为深度学习方法中基于批数据的随机梯度下降使得针对该问题的传统数值优化技巧难以被有效运用于神经网络的训练中。为此本文分析了表面自交与函数单射性质的内在关联性,提出了循环正则化方法,在原有随机梯度下降的优化框架下显著地减少了表面自交的问题。
3.利用端到端的网格映射网络从图像出发整体预测整个形状,虽然免去了人工设计推理过程的繁琐工作,但是仅仅依靠端到端的学习策略并不能够使得网络具备可泛化到未知类别物体的推断能力。本文进一步探索了基于部件的分步推断的框架,提出了一种部件拼装算法,通过网络学习预测两两部件的边界盒之间的相对位置关系来将部件按接触点进行拼装以实现分步骤生成形状。同时,按部件生成的框架使得原本只能生成单一拓扑的网格映射方法也可以通过部件组合的方式来表达具有复杂拓扑的物体。
目前,国内外研究者们对于基于深度学习的从单张图像生成三维形状的研究已经取得了一些进展,但仍旧面临一系列挑战。具体地,如何将二维图像领域的卷积神经网络或者循环神经网络扩展到三维形状的生成中来,如何面向特定三维形状表达满足深度学习方法对于函数可导的需求,让网络学习何种先验以使得人工神经网络具备可扩展的三维形状推断能力,等等。本文围绕连续表面的生成任务进行相关研究,首先提出利用网络回归表面参数化映射实现端到端的多类物体表面网格的生成网络,基于该网络结构,深入分析了该类三维形状生成网络容易产生表面自交的局限性及其成因并提出了一种防表面自交的形状生成网络,最后进一步探索了具有复杂拓扑结构及开放类别目标的三维生成问题,设计了基于部件形状推断的三维网格生成网络。本文的主要工作与创新点包括以下三点:
1.本文从实际应用中对三维模型的需求出发,结合深度人工神经网络可以拟合任意连续函数的特点,提出了基于网格表面映射的三维表面生成网络。该网络将三维形状的表面表达为从一个预设凸表面到目标形状表面的映射函数,并以深度神经网络从输入图像预测映射函数参数的方式实现对三维形状的生成。该设计首次实现了端到端的由单视角图像生成多类别物体的连续表面网格的深度神经网络。
2.网格映射网络能够学习预测具有连续表面的三维形状主要得益于神经网络模型具有的高自由度能够拟合任意连续表面。但是这样的高自由度也使得网络难以对输出表面进行精细控制,容易出现表面自交重叠。同时,因为深度学习方法中基于批数据的随机梯度下降使得针对该问题的传统数值优化技巧难以被有效运用于神经网络的训练中。为此本文分析了表面自交与函数单射性质的内在关联性,提出了循环正则化方法,在原有随机梯度下降的优化框架下显著地减少了表面自交的问题。
3.利用端到端的网格映射网络从图像出发整体预测整个形状,虽然免去了人工设计推理过程的繁琐工作,但是仅仅依靠端到端的学习策略并不能够使得网络具备可泛化到未知类别物体的推断能力。本文进一步探索了基于部件的分步推断的框架,提出了一种部件拼装算法,通过网络学习预测两两部件的边界盒之间的相对位置关系来将部件按接触点进行拼装以实现分步骤生成形状。同时,按部件生成的框架使得原本只能生成单一拓扑的网格映射方法也可以通过部件组合的方式来表达具有复杂拓扑的物体。