论文部分内容阅读
“察言观色”是正常人类的基本生活交流能力,对人类动作和行为的分析和理解是现代心理学的主要研究内容之一。随着人工智能的发展和人类计算能力的提升,人体动作识别逐渐成为计算机视觉以及图像处理领域的研究热点之一,该方向不仅拥有重要的理论研究价值,还有着广泛的应用前景。其主要原因是人体动作识别在人机交互、健康监护、智能安防、视频分析等研究领域中的潜在应用价值。本论文依托于国家自然科学基金面上项目《基于RGBD图像序列和加速度信号融合的人体动作识别方法研究》,开展了对面向复杂现实场景下多模态信息融合需求的人体动作识别问题的研究。本论文将课题从两方面展开即:“基于单模态数据异构特征信息融合的人体动作识别”与“基于多模态数据异构特征信息融合的人体动作识别”。首先,对于单一模态数据下的动作识别,本论文的主要工作和贡献如下:(1)基于加速度数据的时频域特征融合的人体动作识别方法。本文提出了基于加速度数据的时频域特征融合的识别方法,提取加速度数据的频域特征即短时傅里叶变换(FFT)。实验分析得知其对身体局部小动作和四肢大动作的区分度很高,但是其较难区分对动作频率敏感的动作。然后提取加速度数据的时频域特征即小波包分解(WPD)。实验分析得知其对频率敏感类动作的区分度较高。最后将这两种特征表示在决策级别进行融合。该方法分别克服了时频域特征表示对特定类型动作判别力的不足,提高了对加速度数据特征编码的判别力,取得了较好的识别效果。(2)基于骨架数据的时空特征融合的人体动作识别方法。本文提出了基于骨架数据的时空特征融合的识别方法,分别对骨架数据的时空线索进行编码。基于骨架数据提取一种包含丰富时间线索且具有视角不变性的几何特征(PoJM3D),该特征表示将三维人体骨架数据降维投影到一维的角度空间中。然后基于骨架节点的动量提取一种包含丰富空间运动信息的物理特征(MoP)。实验分析得知其可以有效弥补PoJM3D对空间表观信息的缺失。该方法分别从时间和空间的维度对骨架数据提取强辨别力的特征表示,提高了对骨架数据特征编码的判别力,取得了有效的识别效果。其次,对于多模态数据下的动作识别,本论文主要工作和贡献如下:基于相关分析的多模态异构特征信息融合的人体动作识别方法。本文提出了基于加速度数据和视觉数据异构特征融合的动作识别方法。其中视觉数据包括人体骨架数据和深度图序列。因为加速度数据包含丰富的时间线索,故提取加速度的频域特征短时傅里叶变换。视觉数据一般包含丰富的三维空间表观信息,故对其进行时空立方体金字塔(STCP)等特征的表示。然后使用向量的相关分析方法将两种来自不同模态的异构特征进行融合。该方法证明了来自不同模态的异构特征经过融合可以有效的提高模型的识别性能。最后,本文分析了现有的动作识别领域数据集的局限性,开发实现了一个多模态人体动作识别采集系统。尽管许多数据集致力于人类动作识别,但是目前的动作识别方法在其可识别动作的可变性和复杂性方面仍然受到严重限制。根据我们的研究问题,依托本系统平台,我们先后采集了两个大型的多模态动作识别数据集。Free-PASS数据集凭借其逼真的场景和复杂的采集策略,暴露了动作识别在真实场景下的真正困难。