论文部分内容阅读
人体动作识别的主要目标是让机器能够从图像或视频中自动地识别人类的动作行为,其在视频监控、医疗保健、智能家居和人机交互等方面具有广泛的应用前景。人体可以被视为由枢纽关节连接刚性骨骼而成的铰接系统,其动作主要反映在三维空间中的骨架运动上,且骨架信息对尺度、光照和视角等变化具有很强的鲁棒性。因此,基于骨架的动作识别已经成为计算机视觉和模式识别研究领域中一个备受关注的课题。本文针对骨架动作识别任务,结合图模型理论和深度学习方法,围绕骨架数据的鲁棒空间特征提取、时序运动信息建模和动作相关部位捕捉等三个关键问题开展了深入研究。具体而言,本文的主要工作如下:(1)提出了一种受注意力机制启发的图卷积神经网络,可有效提取骨架数据的空间结构特征并捕捉与动作相关的显著运动单元。首先,为了从结构不规则的骨架数据中提取深度特征,利用图将骨架数据进行结构化表示,并引入谱图滤波机制灵活地实现了高效的图卷积运算。其次,为了检测对区分动作具有重要作用的动作单元,设计了新的动作关注层,该层还有助于提取高判别性的特征。最后,为了建模骨架的时序运动模式,使用了递归神经网络单元。如此,构成了一个端到端的深度神经网络模型。(2)提出了一种受自回归滑动平均模型启发的空时图卷积模型,可有效实现对骨架数据中空域结构和时域模式的同时编码。骨架动作识别通常可被视为时序问题,骨架数据中包含的空域和时域相关性应当被有效地建模。为此,设计了多尺度图卷积核以有效编码骨架图的空间结构,同时受启发于擅长处理时序问题的自回归滑动平均模型,设计了时域上递归的图卷积方法。此外,从理论上证明了该模型的稳定性,提供了理论上界,并在实验上分析了图卷积核尺度大小、模型结构等对识别性能的影响。(3)提出了两种结合递归神经网络单元的空时图卷积模型,可对骨架的时序运动模式进行非线性编码。工作(2)中提出的空时图卷积神经网络模型本质上属于线性模型,其性能受到了一定的限制。为了实现复杂的函数逼近,增强模型的拟合能力,本文进一步将其扩展到非线性动态网络上,其中分别采用了长短时记忆和门限递归单元两种递归神经网络的设计思想。所提出的模型不仅继承了局部卷积滤波的成功,而且取得了递归神经网络的序列建模能力,还可以作为基本网络层构建深层网络。针对上述工作中提出的模型,本文在四个公共的骨架动作识别基准数据库上进行了大量的实验,并与其他最先进的模型进行了比较,从而验证了本文提出模型的有效性。与此同时,进一步为当前基于骨架的动作识别指明了更有前景的研究方向。