论文部分内容阅读
在线视频动作分析是计算机视觉中的一个重要研究课题,在视觉监控、人机交互和机器人智能导航等领域有着广泛的应用。与离线视频动作分析在动作被完全捕获后再进行识别不同,在线动作分析的目的是在动态中尽可能早的检测动作发生的状态,对即将发生或正在发生的事件做出准确、快速的响应,以提供更好的实用价值。本文针对在线人体动作识别分析进行探索研究,主要研究内容包括视频动作识别、时序动作检测和重复动作计数三个方面。针对视频动作识别任务,本文分别基于BN-Inception(Inception with Batch Normalization)网络建模表示动作外观特性的空间特征和基于C3D(3-Dimensoinal Convolutional)网络建模包含动作上下文信息时空特征,提取鲁棒性的动作特征表示;然后对多分类识别,分别使用基于一对多的LSVM分类器和基于softmax loss搭建的分类网络训练分类模型,完成在线人体动作的识别任务,并验证其有效性。针对时序动作检测任务,为了准确的识别视频中动作类别及发生的起始和结束时间,本文提出了基于动作时间语义连续性规则优化候选时间片段的方法。首先按照动作时间语义连续性规则对同一尺度和不同尺度的滑动窗口进行整合;然后,对整合结果重新获取分类置信分数,通过非极大值抑制(NMS)消除不准确检测。该方法突破了滑动窗口固定的限制,可以产生任意长度的动作时间片段,并抑制了冗余检测,使得检测结果更符合预期。针对重复动作计数任务,与以往传统方法只能处理静态和平稳周期运动不同,本文首次采用深度ConvNets提取的空间和时空特征获取重复动作的运动规律:首先对高维人体动作特征进行PCA算法降维,获取表现动作时序运动特性的主成分;然后基于傅里叶变换,通过分段阈值滤波去除噪声、平滑运动轨迹,完成无约束视频的无监督重复动作计数任务。实验结果表明,该方法对真实场景的动态和非平稳视频中的重复动作分析同样有效,对处理复杂的现实场景视频数据具有一定的鲁棒性。在实际应用场景中,在线视频动作分析不仅考虑识别准确性,同时还要求时间效率。本文对该工作进行在线测试分析,结果表明当在线获取当前帧和当前帧之前的479帧作为一次检测输入时,处理速度达到最优值,比实际输入时长快2.93倍。表明了在线视频分析的有效性,为该任务的实际应用打下了理论基础。