论文部分内容阅读
运动目标检测技术作为视频处理的基础部分,广泛应用于智能交通、社会公共安全与视频压缩等领域,是智能视频分析至关重要的环节。因此,对运动目标检测的研究具有十分重要的意义。本文主要探索基于深度学习的运动目标检测方法,通过构建深度网络模型并训练,来实现基于有监督学习的运动目标检测,并从可行性、可靠性与算法鲁棒性角度对深度网络模型进行相关验证,主要贡献如下:(1)针对传统的运动目标检测方法在复杂场景下检测精度不高的缺陷,相关学者开始从深度学习的角度出发,利用卷积神经网络并将视频帧进行分块处理来实现运动目标检测。鉴于这种方法复杂度过高且未考虑视频帧图像整体结构信息,本文的第三章提出了一种基于深度全卷积网络的运动目标检测方法。通过时域平均法提取视频场景的背景,并利用深度全卷积网络学习输入帧图像与背景图像之间的非线性映射,从而实现运动目标检测。该方法不仅能够适应不同尺寸的复杂视频场景,实现像素级的密集预测,而且检测过程中对于每幅图像仅需进行一次前向计算,且提取背景方法简单,有效提高了检测速度。然而,由于背景提取方法简单,而且深层网络难以训练,导致该方法在未参与训练的场景下的运动目标检测精度不高,算法的鲁棒性有待提高。(2)针对第三章提出的基于深度全卷积网络的运动目标检测方法鲁棒性不高的缺陷,本文的第四章提出了一种基于深度残差网络与迁移学习的运动目标检测方法。首先,该方法利用SuBSENSE算法改进了提取视频场景背景图像的时域平均法,使得复杂场景下的背景图像提取更为准确;其次,通过引入残差学习与迁移学习,解决了深度网络难以训练和训练时间太长的问题。实验证明,该方法不仅在运动目标检测效果上优于其它算法,并且网络模型的鲁棒性较第三章提出的基于深度全卷积网络的运动目标检测方法有了很大程度的提升。(3)针对传统有监督学习的运动目标检测方法中模型不能很好地学习数据原始分布的缺陷,本文的第五章引入对抗训练思想,提出了一种基于条件生成式对抗网络的运动目标检测方法。该方法通过加入额外Ground truth信息,以指导运动目标检测二值图像的生成,并且通过对抗训练,使得生成模型能够成功捕捉原始数据的真实分布。实验证明,该方法不仅优于其它主流运动目标检测算法,并且,通过加入对抗训练模型,算法的鲁棒性相比前面提出的有监督学习方法得到进一步提高。