论文部分内容阅读
人体姿势预测是计算机视觉领域里的一项非常具有挑战性的任务,它可以估计像行人这样的目标物体接下来的举动进而预测其接下来的轨迹。近些年来,人体姿势预测的应用范围越来越广泛,例如人机交互、人员跟踪及自动驾驶等。由于深度学习的进步,应用卷积神经网络或循环神经网络的人体姿势预测方法也得到了较广泛的发展。但是人体姿势预测会受到许多不确定因素的影响,例如运动速度,运动幅度,运动背景等,这些不确定因素将会引起预测的第1帧不连续而且准确预测的时间会比较短。本文针对人体姿势预测中的第1帧不连续、准确预测时长比较短以及网络结构复杂、训练困难等问题,先后分别提出了基于双向门控循环单元(Gated Recurrent Unit,GRU)网络的人体姿势预测模型(EBiGRU-D)、基于注意力机制的人体姿势预测模型(At-seq2seq)以及基于双向GRU和注意力机制的人体姿势预测模型(BiAGRU-seq2seq)。在EBiGRU-D网络模型中编码器的组成是双向GRU网络,该模型的解码器部分组成是典型的GRU网络。双向GRU网络让输入的原始数据能够从正方向和负方向分别输入到编码器中并对输入的数据进行编码操作,输入的数据经过编码后会形成一个状态向量。该状态向量将输入到解码器中进行解码操作。双向GRU网络比较突出的优点是将现时刻的输出与其前后时刻的状态相关联从而使输出充分地考虑了前后时刻的数据特征。在At-seq2seq网络模型中编码器的组成是GRU网络,而其解码器部分的基本网络也是GRU网络,但与编码器的区别是这里引入了注意力机制。在解码器部分添加注意力机制的目的是将编码器的输出编码成包含多个子集的向量序列,这样做的目的是让解码器可以从这些序列中选择最相关的部分进行解码操作。BiAGRU-seq2seq网络模型结合了EBiGRU-D网络和At-seq2seq网络模型的优点。该模型的编码器由双向GRU网络来组成,在解码器部分注意力机制被引入到GRU网络中。同时,该模型还引入了残差架构,该架构的目的是将解码器的输入和输出数据同时馈送至残差架构中以模拟人体的运动速度。本文所提出的3种网络模型均已在Human3.6m视频姿态数据集上得到了验证,目前该数据集是国际上公开可用的最大的视频姿态数据集。它包括由专业演员进行的各种活动,并通过Vicon姿势捕捉系统记录下来。实验结果表明,所提出的模型不仅可以降低人体姿势预测的误差,而且还可以准确地预测多帧人体姿势。