论文部分内容阅读
近年来,视频监控在道路交通、公共安防、工业生产等各种领域中发挥着越来越重要的作用,如何高效地从海量的监控视频数据中自动获得有价值的运动信息受到学术界和工业界的广泛关注。研究者们提出了大量的运动前景检测算法,但这些传统的方法应用到实际复杂多变的场景中时会遇到很多挑战,例如光照变化的影响、相机的抖动、恶劣天气环境等,基于深度学习的运动前景检测算法一定程度改善了检测的健壮性,然而目前的深度学习模型通常只使用空间特征来实现运动特征提取,在不同程度上忽略了更能体现运动建模本质的时序特征。因此,如何设计一个充分利用时序特征进行运动前景检测的算法,对于应对真实场景中的各种挑战,以及改善模型的推广能力具有很大的研究意义。本文从改善运动前景检测对各种场景的鲁棒性出发,充分挖掘视频的时序特征,利用深度神经网络来分析学习物体的运动信息,从而实现运动前景的检测。论文的主要工作有:(1)针对现有的深度学习模型通常只使用空间特征来实现运动前景检测的现状,本文构建了基于时序特征的运动前景检测算法3D CNN-Conv LSTM。算法的模型主要包括两个部分。首先,模型使用了在动作识别领域被广泛用来提取时序特征的三维卷积神经网络(3D CNN),利用3D CNN可以在时间维度上做卷积运算的特点,来学习短时间内的时序特征。同时,为了能够更好地训练模型,在3D CNN中使用了残差网络结构。然后为了学习较长时间范围的特征,选择使用了可以考虑空间相关性的Conv LSTM网络。由于加入大量的时间与空间信息,于是使用Focal Loss损失函数来解决数据中背景像素数量远大于前景像素数量的类不平衡问题。实验表明,使用时间特征来进行运动前景的检测具有可行性,同时算法有很大提升空间,因此考虑使用更加丰富的时序特征来提高算法的性能。(2)为了借助更加丰富的时序特征来改善困难场景的运动前景检测,本文结合了第三章中的三维卷积神经网络构建了三维空洞卷积神经网络算法(3D Atrous CNN)来实现运动前景的检测。在时间维度和空间维度上同时使用三维空洞卷积,捕捉更长时间跨度的时序特征,学习更大视野内的运动信息。此外,使用时间上的多尺度,通过使用不同的时间空洞率和视频帧输入步长来生成不同时间维度的特征图。这样模型对目标运动的表示能力更强,从而更有利于运动前景检测的健壮性。实验表明,在3D CNN中加入多分辨率的时序特征后,与第三章的算法相比,算法的性能提高了近20%,达到了96%的准确率,充分说了改进算法模型的有效性。