论文部分内容阅读
行为识别一直以来都是模式识别和计算机视觉等领域的研究热点,在智能视频监控、视频数据内容检索、虚拟现实等方面有广阔的应用市场和巨大的应用价值。行为识别的研究涉及到数字图像处理、信号处理、模式识别等领域的热点、难点问题,对其的研究具有较高的理论研究价值。区别于传统的行为识别方法,本文采用了深度学习的方法对行为识别进行研究。传统的行为识别方法常常是把特征提取作为研究的核心,而采用深度学习算法则在一定程度上实现了算法自身学习数据特征,并能对学习来的有效的特征进行分类。这在一定程度上减少了人工的干预。本文对行为图像序列进行了关键帧提取,将任一行为表征为具有时间序列性的行为关键语句。针对关键语句的时序性,本文采用了擅长处理时序数据的长短时记忆神经网络(Long Short Term Memory Network,LSTM)对行为关键语句进行了分类,实现了针对停车场场景的异常行为识别。考虑深度学习算法通常需要大量的数据才能训练出较好的模型。本文在已存在的数据的情况下,采用深度卷积对抗生成网络(Deep Convolutional Generative Adversarial Networks,DCGAN)等生成了数据,达到了增大数据量、平衡不同类别数据量的差异的效果。本文在中科院CASIA行为数据库和自建行为数据库进行了实验验证,实验结果表明本文的异常行为识别方法行之有效。本文的工作内容如下:(1)在已有停车场行为数据的基础上对数据库进行了扩充,增加了300多段行为视频数据。扩充的行为视频数据考虑了多视角问题,确保了行为视频数据的多样性。并对所有的视频数据进行了目标检测及降噪等预处理。(2)提出了基于动态时间规整(Dynamic Time Warping,DTW)的行为关键语句表征方法。首先,对降噪后的行为序列计算了运动周期曲线。然后,通过运动周期曲线及DTW的方法提取了行为关键帧,并参考语义理解的方法,将行为关键帧表征为一系列行为关键语句,较好地保留了行为序列的时序性特征。(3)针对目前停车场场景数据不足及不同类别数据量不平衡问题,本文采用了数据增强、生成对抗网络(Generative Adversarial Networks,GAN)、DCGAN等方法生成了行为关键语句,满足了数据的多样性。充足多样的数据是本文行为识别模型获得较强泛化能力的有力保障。(4)提出了基于LSTM的异常行为识别方法。行为关键语句是一种具有时序性特征的数据,基于LSTM具有对时序数据较好的处理能力,本文采用LSTM对行为关键语句进行了学习和分类。本文在CASIA数据库和扩展数据库上进行了实验验证及对比,实验证明,采用本文提出方法较递归神经网络(Recurrent Neural Network,RNN)、卷积神经网络(Convolutional Neural Network,CNN)、支持向量机(Support Vector Machine,SVM)等方法有更好的识别性能。