论文部分内容阅读
近年来,基于单张单视角RGB图像的三维重建研究得到了广泛关注。由于基于RGB图像的深度神经网络获得了巨大成功,三维重建的质量也得到大幅提升。目前的深度学习模型大都是重建体素信息来表示三维模型,换言之,这些深度模型是将RGB图像映射到三维图像(体素类似于像素)。即使体素重建质量很高,但是却丢失了三维物体一些重要的信息,例如形状拓扑和部件之间的关系等。为了重建出三维物体的结构信息,从RGB图像中还原出更完整更细节性的三维信息,本文提出一种基于RGB图像三维重建的深度学习模型,是一个卷积递归自编码器,由结构掩膜网络和结构重建网络两个子网络组成。首先,给定一张具有目标对象的RGB图像作为输入,由结构掩膜网络进行RGB图像轮廓特征和结构特征提取。然后利用结构重建网络将特征解码,并利用长方体和树状层次结构分别表示三维物体的每一个部件和部件之间的相互关系,包括连接关系和对称关系(即旋转对称关系、平行对称关系以及镜面对称关系),从而实现自动重建RGB图像中目标对象的三维结构信息。其中,结构掩膜子网络的目的是对RGB图像进行解析,它是一个多尺度卷积神经网络,通过学习在各种尺度和环境下目标物体的特征,以识别RGB图像中目标物体的轮廓信息和结构特征。而结构重建子网络的目的是为了解码RGB图像特征,以获得三维物体的结构信息,是一个递归结构解码器。解码器融合结构掩膜网络提取的特征和原始图像的特征,递归地解码长方体的层次结构。由于解码网络可以恢复三维物体各部件之间的连接性和对称关系,因此本文基于RGB图像三维重建的深度学习模型可以保证重建的三维物体的合理性和通用性。本文采用轮廓-掩膜和立方体-结构训练数据联合対深度学习模型进行训练,同时采取了很多机制防止产生过拟合。通过实验结果可以看出本文的研究取得了非常成功的结果,高质量地从RGB图像恢复出了细节性的目标物体的三维部件结构信息。而且在与其他前沿的研究做对比后,充分说明了本文具有很强的创新性和广泛的应用性。本文的研究可以应用到对三维体素重建的补全和优化研究中,利用结构信息将缺失的体素进行对称填充可以产生良好的结果,同时本文的研究也可以应用于高级图像编辑领域,通过对RGB图像对应的三维物体进行编辑,将编辑后的效果重新体现在RGB图像中。