【摘 要】
:
基于视觉的手部3D姿态估计及形状重建是实现人机交互的重要环节,在虚拟现实、智能机器人等领域具有广泛应用。近年来,深度学习和神经网络的迅猛发展为计算机视觉提供了强大的技术支持,涌现了大量优秀的基于视觉的手部姿态估计和形状重建方法。尽管这些方法已经取得了喜人的成绩,但RGB图像存在诸如背景复杂、深度信息缺乏等问题,导致姿态估计的精度及形状重建的效果仍有提升的空间。针对以上问题,本文给出一种基于单张RG
论文部分内容阅读
基于视觉的手部3D姿态估计及形状重建是实现人机交互的重要环节,在虚拟现实、智能机器人等领域具有广泛应用。近年来,深度学习和神经网络的迅猛发展为计算机视觉提供了强大的技术支持,涌现了大量优秀的基于视觉的手部姿态估计和形状重建方法。尽管这些方法已经取得了喜人的成绩,但RGB图像存在诸如背景复杂、深度信息缺乏等问题,导致姿态估计的精度及形状重建的效果仍有提升的空间。针对以上问题,本文给出一种基于单张RGB图像的手部姿态估计及形状重建方法,具体研究内容可以概括为以下两个部分:(1)本文给出一种基于单张RGB图像的手部姿态估计方法。考虑到由RGB图像推断3D姿态是一个高度非线性的问题,因此本文采用两阶段法,即首先估计2D姿态,再将2D姿态提升到3D空间。由于手部RGB图像具有背景复杂、自遮挡严重等特点,因此利用具有强大图像表征能力的CNN搭建2D姿态估计模块,实现手部的2D关节点位置检测。针对二维图像缺乏深度信息问题,利用基于GCN的3D姿态提升模块充分挖掘手部的骨架结构和语义信息,缓解RGB图像固有的深度模糊和遮挡问题,实现2D姿态到3D姿态的映射。为了进一步提升姿态估计的准确度和合理性,设计了姿态结构鉴别模块,将手部的几何结构和运动约束嵌入在网络学习中,通过对抗生成的训练方式促使网络产生结构更加合理的手部姿态。(2)仅有手部姿态并不足以实现完整的手部重建,本文在姿态估计的基础上给出一种基于GCN的弱监督手部表面网格重建方法。考虑到图像采集方式和场景的不同会导致不同数据集的图像间具有很大的差异性,而手部姿态不但与图像的背景、纹理等外观特征无关,在不同数据集中具有同质性,而且可以提供潜藏在表面网格下的关节位置信息,因此将手部姿态作为表面网格重建任务的初始输入,不失为一种好的选择。然而,稀疏的手部姿态和密集的手部网格间存在着较大的跨度,因此本文构建了Mesh GCN网络,将稀疏的手部姿态由粗糙到精细,逐级恢复出密集的手部表面网格。另外,密集的手部表面网格标注难以获取,本文给出了一种弱监督的机制,为无表面网格标注的数据集提供约束,以实现有效的手部表面网格重建。在几个公开数据集上的实验结果验证了本文手部姿态估计及表面网格重建方法的有效性,其性能与现阶段的诸多先进方法相当。
其他文献
近几十年来,随着计算机和电子科学技术的飞速发展,涌现了许多先进的电子产品,例如智能手机,数码相机等。这些设备提供了快速记录信息的机会,已经逐渐成为人们日常生活中必不可少的组成部分。但是,当使用数码相机拍摄数字屏幕时,照片中会出现令人反感的摩尔纹。摩尔纹的存在严重损害了图像的质量,并且还会影响到后续的分析和处理。摩尔纹去除是图像恢复任务的一种,旨在最大程度的恢复被摩尔纹污染的屏摄照片。由于摩尔纹广泛
如今社会上出现各种各样先进的产品和技术,如高性能的智能手机、各种新颖的图像编辑APP和常用的社交APP等。这些APP的出现和流行让图像的拍摄、编辑和传播变得方便,也使网络上充斥着各种真真假假的数字图像。由此可见,高科技的发展作为一把双刃剑,在丰富便利生活的同时,也使数字图像的可信度逐渐降低,会有不法分子为实现自己目的而恶意篡改图像。为了进一步保证数字图像的可信度,研究者提出了被动数字图像取证技术,
骨关节炎(Osteoarthritis,OA)是最常见的退行性关节疾病,其特征是关节软骨的进行性退化和软骨下骨的重塑以及骨赘的形成,临床上引起关节疼痛、功能障碍,甚至残疾。关节软骨细胞外基质(Extracellular Matrix,ECM)分解代谢的增加是OA发生发展的关键因素。ECM的主要成分是蛋白聚糖、Ⅱ型胶原和非胶原蛋白,其在合成或降解过程中一些特定的碎片得以释放到体循环中。随着分子
在海上目标检测的过程中,基于人工智能的目标检测已经成为必不可少的重要实现工具。在宽阔的水域或者港口码头,无论密集的聚集还是松散的分布,都需要对船舶快速地检测和定位,进一步有分类以及分割的实际需求,对目标检测稳定高效性的要求也越来越高。本文的主要研究内容为改进YOLOv3目标检测算法的网络结构,以期提升网络的准确率和召回率。本文以水上船舶图像作为研究对象,进行深度学习神经网络模型研究、船舶图像增强研
近些年,随着国家法制建设的推进,如何通过信息抽取技术从海量司法文书中获取有用信息,助力于“智慧司法”建设,已成为自然语言处理领域中的研究热点。其中,关系抽取作为司法信息抽取技术中的关键技术之一,不仅能够帮助办案人员进行案件要素的关系梳理,提高办案效率,还可为司法问答、司法推理、司法知识图谱构建提供重要的技术支持,因此,其研究意义重大。然而由于司法文本的复杂性和特殊性,导致各罪名案件间的关系诉求存在
深度估计是诸多立体视觉任务中的基础环节,在三维重建、机器人、自动驾驶等领域有较为广泛的应用。近年来,卷积神经网络的相关理论趋于成熟,在计算机视觉领域获得了瞩目成就,也为深度估计任务提供了新的解决思路。基于深度学习的深度估计任务通过理解图像的内容,对现实场景中各点的实际距离进行预测。单目深度估计受限于尺度模糊,为了提升其预测准确性,网络结构和信息线索成为解决这一任务的关键。本文从探索不同的信息线索对
在有雾天气下,空气中会存在大量悬浮粒子。来自场景的反射光穿过雾气时,会与粒子发生散射,导致反射光衰减,这种现象严重影响了后续图像处理技术的功效。在很多现实场景中都会面临此问题,所以,图像去雾是一项极具实际意义的任务。本文主要针对去雾算法中的暗通道先验算法进行研究,通过分析其存在的问题,提出改进的去雾算法,最后通过实验验证改进算法的有效性。具体研究内容分为两部分:(1)改进的天空区域分割及去雾算法。
人脸属性迁移任务作为计算机视觉领域一个重要的研究分支和人脸属性研究的基础工作,旨在精准地迁移给定人脸属性图像中的目标语义属性。近年来,深度学习的发展推动了人脸属性迁移任务的研究,现有的人脸属性迁移算法一方面通过迁移不同的人脸属性,达到了交互式娱乐的效果;另一方面通过合成更多的人脸数据,一定程度上缓解了人脸属性分析任务中数据量不足和类别失衡等问题。然而,由于复杂的面部结构和模糊的人脸属性定义,现有算
手势估计在诸多场景下都有着重要的应用,例如机器人操控抓取、虚拟现实和增强现实等。针对于空手条件下的手部检测和手势姿态估计方法已经达到了很高的精度,但是当手与被操作对象进行交互时,手部定位及手势估计效果并不令人满意。造成性能不佳的原因主要有物体遮挡因素的干扰以及人手姿态的多样性和不确定性。针对这些问题,本文提出了手物交互场景下基于深度学习的手部二维检测和手部三维关节点定位的方法,并在对应的数据集上取
教育直播是一种新兴的教学模式,依托于互联网直播技术的飞速发展,让教学课堂不再拘泥于地点的限制,教师可以使用教育直播系统将教学信息实时地传递到多个学生的终端设备上,实现随时、随地的授课。现今市场上教育直播平台种类繁多,但存在着安全性、私密性、体验感受、适用性等方面的问题。针对上述情况,本论文在深入研究直播技术的基础上,根据教学课堂的实际应用需求,设计了一种基于FFMpeg的教育直播系统。该系统划分为