【摘 要】
:
三维人体姿态估计是计算机视觉领域的热门研究问题之一,其在人机交互、动画制作、视频监控等方面有着非常广阔的应用前景。本文主要研究面向自然场景的三维人体姿态估计问题,即对单视角自然场景图像计算其中目标人体各关节的三维坐标,从而恢复人体的三维姿态。目前对该问题的研究存在两大难点:第一,从单视角二维图像恢复三维人体姿态存在不准确性。单视角图像损失了大量的深度信息,使得从二维到三维的变换存在高度非线性;第二
论文部分内容阅读
三维人体姿态估计是计算机视觉领域的热门研究问题之一,其在人机交互、动画制作、视频监控等方面有着非常广阔的应用前景。本文主要研究面向自然场景的三维人体姿态估计问题,即对单视角自然场景图像计算其中目标人体各关节的三维坐标,从而恢复人体的三维姿态。目前对该问题的研究存在两大难点:第一,从单视角二维图像恢复三维人体姿态存在不准确性。单视角图像损失了大量的深度信息,使得从二维到三维的变换存在高度非线性;第二,缺少自然场景下的三维人体姿态数据集。常用的三维人体姿态数据集是在背景单一的实验室场景中获取的,以此训练的模型泛化能力不强,不能很好地应用于背景复杂多样的自然场景图像。本文以一种弱监督迁移学习方法训练的模型作为基准模型,研究如何提高三维人体姿态估计模型对于自然场景图像的估计准确度和泛化能力。针对目前存在的两大研究难点,本文分别展开了以下两方面的工作:(1)提出了基于注意力机制与姿态校准的三维人体姿态估计模型,以提高姿态估计的准确度。首先,本文对基准模型引入注意力机制,通过基于注意力机制的通道权重学习算法,来增强模型对单视角图像的深度信息解析能力,进而达到更好地回归各关节的深度坐标的目的;其次,本文采用多尺度三维人体姿态校准网络,从不同尺度构建人体骨架模型,从而自适应地学习人体的结构特点和运动特点,达到校准模型估计结果的目的。该模型相较于基准模型在Human3.6M测试集上的平均关节位置误差(MPJPE)降低了3.28mm。(2)提出了基于贝叶斯网络获取具有高质量标签的自然场景三维人体姿态数据集的方法,以提高模型在自然场景下的泛化能力。本文将若干现有模型对于实验室场景数据集的估计结果作为弱标签,结合真实标签,使用提出的三维人体姿态贝叶斯网络模型来学习它们之间的依赖关系,从而能够修正各个模型对于给定自然场景图像集的估计结果,以获取具有高质量标签的自然场景数据集,并以此微调(fine-tune)基准模型。在自然场景二维人体姿态数据集LSP和MPII上的实验结果表明微调后的模型对于自然场景图像具有更强的泛化能力。
其他文献
卷积神经网络已被广泛应用于自然语言处理领域。句子情感分类是自然语言处理领域中最常见的任务之一。国内外学者在句子情感分类任务中,利用深度学习神经网络进行了大量的实验,证明其能够更有效地获取文本数据中的上下文信息。目前,应用于处理句子情感分类任务的神经网络模型通常包括卷积神经网络、递归神经网络和循环神经网络。随着深度学习的发展,神经网络与注意力结合的架构方式为句子情感分类任务的发展带来了重大的突破,预
光学字符识别(Optical Character Recognition,OCR)作为计算机视觉领域中的重要分支,在自然场景与特定场景中都具有广泛的应用空间与研究价值。传统的字符识别方法在对于文档等简单背景的字符识别任务中已经取得了较大的成功,但对于较为复杂的特定场景中的符识别难免捉襟见肘。近年来随着卷积神经网络研究的不断深入,因其能轻易地提取数据间深层的特征关系,极大地提高了对于图像数据的处理效
语言作为人际交流的必要途径,除了具有传递信息的功能之外,还有表达情绪的动能。同样的话语在不同的情感背景下往往表达不同的意义,全球语言皆是如此。因此语音情感识别具有重要的研究价值。在人工智能情感计算领域,语音信号是最基本、最重要的模态之一。国内外众多学者针对语音情感的研究大多分为语音信号直接处理识别以及转换为谱图进行处理识别。而且语音情感识别任务,可以引申出的多个应用领域,比如:智能助老机器人,办公
深度学习近年来被广泛应用在字符识别、图像识别、语音识别及其他领域中,而且都取得了显著的成效。而卷积神经网络作为深度学习里重要的一个算法,因其良好的特征表现能力而备受关注。字符识别因实际需求,也变得越来越热门,更多的人开始进行字符识别方法的研究,如车牌字符识别、芯片字符识别、身份证号字符识别、自然场景文本识别等。货运列车作为我国运输业中经常使用的运输方式,其自动化管理必将越来越受到重视。而货运列车字
随着智能移动终端的普及,移动终端学习的互动学习体验更加便利,智能移动终端与教育教学的有机结合逐渐成为新时代的主流学习方式。移动终端学习环境打破了传统课堂的界限,学习者可以不受时间地点的限制合理使用移动终端进行学习,解决了课前课后一体化问题。由于2020年新冠肺炎疫情的严重影响,导致大量学习者不能进行正常线下课程,所以通过移动终端进行线上学习变得越来越重要。通过移动终端进行学习广泛应用于学习者的日常
近年来,随着计算能力的快速提升,数值模拟在科学研究与工程设计中发挥着越来越重要的作用,但是由于在数值模拟中不可避免的有近似、简化和人为因素,因此数值模拟结果的可信度成为人们越来越关心的问题。不确定性度量化(Uncertainty Quantification,UQ)是近年来计算数学新兴的研究方向,其作用是定量表征模拟结果反映复杂过程的程度。由于很多问题数值模拟计算量大耗时长,难以开展大样本的计算,
医生在诊断过程中往往需要医学图像的辅助,准确的医学分割图像对医生诊断病情、制定一些疾病的治疗方案具有重要意义。核磁共振成像是目前应用最为广泛的脑部成像手段之一,但其特殊的传输方式会导致图像受到混合噪声的干扰,且由于图像自身对比度低,内部组织形状不定,分离病灶部位与正常组织变得更加困难。为了设计一种满足临床医学实际需求的MRI脑部图像自动分割算法,本文利用哈佛大学医学院图像库中的MRI图像,从去噪和
阵列电化学生物传感器(Electrochemical Biosensor Array,EBA)凭借其选择性高、灵敏度高、分析速度快等优点受到广泛关注。微阵列电极作为换能元件,其对电化学传感器的性能起着关键作用,所以构建高性能电极材料成为当前研究热点。本文提出了一种将数字微镜器件(DMD)无掩膜多步光刻与电化学沉积相结合的技术,利用光刻系统压电平台(PZS)运动的高分辨率运动和DMD生成图案的灵活性
近年来,随着人工智能技术的不断突破与互联网技术的飞速发展,使越来越多的用户利用互联网技术进行在线学习,同时新冠疫情的爆发也促使在线教育平台拥有了更多的用户。在线教育平台使高质量的教育资源得以普及,尽管越来越多的教育家提倡个性化教育,但当前的教育模式仍由班级教学为主导。用户可以利用学习资源在老师和同学帮助下获取知识,群组推荐正适用于此类需求。尽管在线学习平台为学生带来了学习方式上的便利,但如何有效的
透明可拉伸多功能传感阵列在弯曲、拉伸等动态应变下可以感知多种刺激,发挥应变、压力和接近等传感功能,在透明智能电子皮肤、人机交互、智能机器人和假肢等领域展现出重要的应用前景。目前,由于材料性质和器件结构的限制,想实现透明可拉伸的多功能传感器面临如下挑战:1.需要传感器所有组件的材料(电极,敏感材料,封装材料等)都是透明且可拉伸的;2.需要区分不同功能的信号,以实现应变下传感的精确探测。针对以上问题,