RGB图像的三维重建深度学习方法研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:zhoushucheng0533
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,基于单张单视角RGB图像的三维重建研究得到了广泛关注。由于基于RGB图像的深度神经网络获得了巨大成功,三维重建的质量也得到大幅提升。目前的深度学习模型大都是重建体素信息来表示三维模型,换言之,这些深度模型是将RGB图像映射到三维图像(体素类似于像素)。即使体素重建质量很高,但是却丢失了三维物体一些重要的信息,例如形状拓扑和部件之间的关系等。为了重建出三维物体的结构信息,从RGB图像中还原出更完整更细节性的三维信息,本文提出一种基于RGB图像三维重建的深度学习模型,是一个卷积递归自编码器,由结构掩膜网络和结构重建网络两个子网络组成。首先,给定一张具有目标对象的RGB图像作为输入,由结构掩膜网络进行RGB图像轮廓特征和结构特征提取。然后利用结构重建网络将特征解码,并利用长方体和树状层次结构分别表示三维物体的每一个部件和部件之间的相互关系,包括连接关系和对称关系(即旋转对称关系、平行对称关系以及镜面对称关系),从而实现自动重建RGB图像中目标对象的三维结构信息。其中,结构掩膜子网络的目的是对RGB图像进行解析,它是一个多尺度卷积神经网络,通过学习在各种尺度和环境下目标物体的特征,以识别RGB图像中目标物体的轮廓信息和结构特征。而结构重建子网络的目的是为了解码RGB图像特征,以获得三维物体的结构信息,是一个递归结构解码器。解码器融合结构掩膜网络提取的特征和原始图像的特征,递归地解码长方体的层次结构。由于解码网络可以恢复三维物体各部件之间的连接性和对称关系,因此本文基于RGB图像三维重建的深度学习模型可以保证重建的三维物体的合理性和通用性。本文采用轮廓-掩膜和立方体-结构训练数据联合対深度学习模型进行训练,同时采取了很多机制防止产生过拟合。通过实验结果可以看出本文的研究取得了非常成功的结果,高质量地从RGB图像恢复出了细节性的目标物体的三维部件结构信息。而且在与其他前沿的研究做对比后,充分说明了本文具有很强的创新性和广泛的应用性。本文的研究可以应用到对三维体素重建的补全和优化研究中,利用结构信息将缺失的体素进行对称填充可以产生良好的结果,同时本文的研究也可以应用于高级图像编辑领域,通过对RGB图像对应的三维物体进行编辑,将编辑后的效果重新体现在RGB图像中。
其他文献
目前,海参养殖的监测与捕捞等作业均由人工潜水完成,这种方式劳动强度大,危险系数高,而且对潜水员健康损害较为严重。水下机器人环境适应能力强,安全可靠,实现水下机器人海参
羊鼻山铁钨矿床处于中亚造山带东段的佳木斯地块中部,佳木斯隆起带桦南隆起上。羊鼻山铁钨矿床发现较早,是一典型的大型沉积变质型铁矿,中型钨矿。前人对其钨矿成因及构造背
辽西兴城台里韧性剪切带位于华北克拉通北缘东部。整体呈近北东南-西向展布,纵向延伸约6km,宽约12 km。对台里剪切带北段进行详细宏微观构造解析,结合岩石变形强度差异性分析
红麻脱胶已经成为生产工艺纤维的基本流程,同时也是红麻初加工的关键过程,红麻纤维的质量和品质的优劣主要取决于其脱胶效果的好坏[1-2]。但是,筛选到的菌株脱胶能力差,产酶
地下水作为环境的基本要素之一,是一种十分宝贵的资源,对地下水的研究关系到水资源的正确评价以及合理利用。地下水数值模型是刻画、表征和再现地下水系统的一种有效工具和常
随着科学与新技术的蓬勃发展,在人们工作生活的各个方面都可以看见人工智能的应用。人脸识别是人工智能研究的热点方向,其应用范围已覆盖安防、金融和移动智能硬件终端等领域
高炉渣作为钢铁生产中的重要副产物,排放温度极高,蕴含大量的余热资源,尚未得到妥善利用。目前水淬急冷是高炉渣处理的主要方式,但该技术浪费了大量的余热和水资源,对环境造
脑电图(Electroencephalogram,EEG)信号代表人类脑部的电活动。由于其准确度高、安全、无创、廉价,因此成为目前癫痫诊断的主流技术。但是癫痫脑电信号的分类研究中仍存在算
我国是世界上受自然灾害影响最大的国家之一,建国以来唐山大地震、长江特大洪水、汶川大地震、南方雪灾等使中国人民饱受自然灾害的摧残,多灾多难的中国必须要探求完善的防灾
在人工视觉的研究方向上,视觉假体作为研究的热点,对于视力恢复的发展及视觉通路的研究起到了重要作用,它为盲人的康复带来了福音。通过刺激存活的神经元,将信号传输至视觉中