论文部分内容阅读
人体行为识别近年来发展迅速,已经成为计算机视觉领域的热点问题,其目的在于分析理解视频内容,并识别出目标人物的动作类别。人体行为识别广泛应用于汽车自动驾驶、人工智能机器人、无人零售以及安防监控等领域。然而,由于视频背景的复杂性、光照变换以及相机运动等外在因素,以及人体运动多变性等内在因素,使得基于视频的人体行为识别任务的研究充满挑战。传统的行为识别算法主要依赖人工提取的标准特征,计算量大且时效性低。近年来,基于深度学习的行为识别算法已经成为主流,大部分算法都采用双流网络(Two-Stream)结构对视频的空间和时间特征进行学习。然而由于光流信息的语义不明确和数据冗余等问题,使得深度网络模型在处理复杂视频内容时在计算和特征层面存在着一定局限性。本文重点研究在不使用额外运动信息的情况下,利用卷积神经网络(Convolutional Neural Network,CNN)和长短期记忆网络(Long Short-Term Memory,LSTM)挖掘视频中的判别信息,对视频中的人体运动进行分析与理解。本文主要工作如下:(1)本文提出了一种基于判别语义特征学习的深度人体行为识别算法。首先通过上下文注意驱动运算学习不同帧之间的语义信息的权重,利用端到端的深度网络实现判别信息的提取。其次利用双向LSTM可以使用视频前后帧的上下文信息这一特性,替代双流网络,进行长时建模,并推断全局判别信息之间的时序关系。最后使用时序关系推理网络,通过模拟人脑推理机制,来推理局部判别信息之间的相关性。实验结果显示,本文设计的判别特征提取深度框架在基准数据集UCF101和HMDB51下的识别准确率分别为95.8%和72.0%。(2)本文提出一种基于分级特征网络的时序行为检测算法,即对未剪辑的视频数据进行动作识别并定位。网络分为两个部分:a)行为分类网络,利用深度残差网络(ResNet-101)搭建双流网络(Two-Stream),分别输入视频序列的图像帧和相应堆叠光流,以学习各个图像帧中运动的得分,并通过该得分产生初始行为建议;b)坐标回归网络,利用粗粒度将分类网络中生成的初始建议划分成固定尺度的单元块,通过单元特征构造特征金字塔,并利用时序坐标回归细化建议边界,最终得到稳定准确的行为边界。