论文部分内容阅读
行为识别是计算机视觉与智能监控领域的研究重点。目前简单背景下的人体行为识别已经取得了较高的识别率,但是对复杂场景下的人体行为识别的研究仍存在不足,本文以洗车行这种复杂环境为背景对人体行为识别进行研究。传统的行为识别算法是采用人工设计的特征,这种方式不仅费时而且很多时候能否选取到好的特征依靠的是经验,同时调节起来也需要很多时间。而深度学习舍弃了传统的依靠人工设计特征的方法,通过构建一个多层的神经网络让机器自动学习隐藏在数据内部的关系,得到数据的特征,这种方式使得学习到的行为特征更加准确,更有利于对行为进行正确的识别。卷积神经网络作为深度学习算法体系下的典型网络,在图像领域取得了已经取得了不错的研究成果,但是在对以视频为输入的行为识别方面的算法依然存在不足,有待改进。本文介绍了可接受以视频作为网络输入的应用于行为识别的3D CNN,该算法是将应用于图像的二维卷积操作扩展成三维,加入时间域,使得网络不仅可以学习到静态图像上的内容还可以学习到视频连续帧中人体的运动信息。但是该网络的下采样层依然是二维下采样,而且无法接受帧数不同分辨率不同的视频输入,适用性小。基于3D CNN网络的不足,本文对其网络结构进行了四点改进,卷积层加入了非线性的MLP卷积操作,使得网络的抽象能力更强。因为时间域与空间域一样也具有一定的不变性,所以下采样层将扩展到三维,加入了时间域的下采样,在保留有用信息的同时减少网络需要学习的参数,提高网络性能。然后加入了时空金字塔下采样技术,既避免了输入信息的损失,又使得网络可以接受不同帧长和分辨率的视频输入。采用ReLU非线性函数来代替原网络的tanh函数作为激活函数,ReLU函数属于不饱和函数,不会像tanh正切函数一样在训练时减小反向传播的误差,而且还可以加速网络训练的收敛,最后采用softmax分类器。改进后网络的输入将舍弃原来网络的梯度通道,让网络自动从数据样本中学习到的梯度信息。最后在背景简单的KTH数据集和背景复杂的洗车行数据集上分别进行实验并给出实验结果,对改进后算法的优点、数据集对于实验结果的影响进行了分析。网络的时空复杂度是评价网络性能的重要指标,本文最后对改进后网络的时空复杂度进行了详细分析。