论文部分内容阅读
随着智能终端的不断普及和发展,视频已成为当今主流的媒体传播形式。由于人体行为是事件发展的主体,对于人体行为的识别和预测是基于计算机视觉的视频理解和分析的重点。与RGB图像相比,人体的骨骼关节点可以很好地描述人体行为,而且骨骼数据对于复杂的背景和相机的视角变化具有很好的鲁棒性。针对人体骨骼数据这种非欧几里得数据,如何利用图卷积网络提取丰富的时空特征是构建人体行为识别和行为预测模型的关键,也是课题来源的国家自然基金项目的研究重点。本文的具体研究内容分为以下两个部分:针对空域图卷积聚合关节特征的计算复杂且无法有效获取双手等远距离关节的空间关系的问题,论文提出了一种基于可分离谱图卷积网络的人体行为识别算法。首先论文根据人体的物理结构设计了静态图,通过关节运动信息推导全局响应的动态图,然后重新推导一阶可分离谱图卷积操作聚合人体关节点的全局和局部空间特征;其次,论文引入了可分离门控时间卷积模块关注关节运动信息来自适应调整时间卷积的感受野范围,使网络能够学习行为序列中可判别的时域信息;最后,论文使用跨模态识别方法解决了图卷积网络过拟合问题。在公开的数据集上的实验表明,本文提出的方法达到国际领先水平。针对基于RNN的循环预测网络没有很好利用身体关节的空间约束关系和运动信息的问题,论文提出了一种基于多分支图卷积网络的人体行为预测算法。首先论文设计了全局时空图和多尺度混合时间卷积模块编码不同时间步长的行为特征,并构建多分支图卷积网络的编码器,通过关节的空间位置和速度信息同步获取人体的时空特征和运动信息;其次,在解码器模块中论文引入了基于图的门控循环单元来递归预测人体行为,利用残差连接和关节的运动信息来稳定行为预测的结果;最后论文使用时间权重均衡损失函数来更多地关注早期时间步长的预测,鼓励网络在早期阶段实现更精准的预测,减少误差累积。