论文部分内容阅读
近些年,随着深度学习在诸多领域取得成功,机器人的研究工作者试图将深度学习与机器人研究相结合,赋予机器人更多感知和分析能力,使得更多的机器人走出实验室、走出工厂,走进人们的日常生活。其中表演机器人能够“自主”表演并与人互动从而服务于人,而其服务质量的好坏很大程度上取决于3D骨骼驱动序列的优劣。现有的3D骨骼序列获取主要依赖3D人体动作捕捉设备或动作设计师的设计,这些获取方式成本高、代价大,使得智能表演机器人研究成果落地相对困难。此外,现有的表演机器人研究工作大多忽视了服装对表演效果的影响。针对以上这些问题,本文基于深度学习的方法,对表演机器人的着装类别和3D骨骼序列获取方式进行了研究及设计。本文的研究工作分为以下三个部分:(1)表演机器人的服装检测与分类:该部分主要对场景中的演示者着装进行检测分类,让机器人根据检测结果选择相应服装类型,并对场景中的演示者进行目标跟踪,有助于后续人体姿态估计研究。首先本文针对服装检测任务做了一个数据集,然后根据应用场景和数据集特点对目标检测网络YOLO v3进行了改进,包括改变多尺度、引入下采样以及剪枝等操作,改进后的网络在本文任务中具有更好的表现效果。(2)3D骨骼序列获取:该部分为两个阶段,首先从场景视频中估计出人体的2D姿态,然后通过推理,在2D姿态的基础上获得3D人体骨骼序列。在第一阶段,本文采用自上而下的思路,将服装检测部分的服装定位信息扩展为人体检测的定位信息。使用空间变换网络对检测部分进行仿射,使目标人体姿态中心与图像中心重合。然后采用当前效果最好的单人姿态估计网络HRnet识别2D人体姿态。在第二阶段,采用时域空洞卷积网络从2D人体姿态推理出3D骨架序列。为了解决现有3D人体姿态数据集不足的问题,本文引入了半监督的训练方法,实现了高精度、长时间、稳定的3D人体骨骼序列提取。(3)动作模仿和服装模仿在动画表演机器人系统中的验证:该部分将前两个部分的研究成果相结合应用到表演机器人当中。首先采用Marvelous Designer软件为表演机器人制作服装并将其放入服装库,然后根据服装检测部分获取的演示者服装类别为表演机器人从服装库中挑选服装,最后将人体姿态估计部分提取到的3D人体骨骼序列转为表演机器人可读取的欧拉角序列,以一定数据格式传递给机器人,最终实现了表演机器人的同类别服装更换以及动作模仿。本文通过大量实验证明了本文方法的有效性,并通过和其他方法对比展示了本文方法的优越性。