论文部分内容阅读
随着互联网以及通信技术的发展,图像以及视频数据已经成为主流,在计算机视觉任务中,群体场景分析是一个非常重要同时极具挑战性的工作,在视频异常事件检测以及视频结构化检索方面有着巨大的应用前景。群体场景的类别定义取决于多层次的信息,这导致了类别之间很大的不确定性,同时,不同群体表现出的动态性质差异也很大,随着近年来深度神经网络与深度学习方法的不断成熟发展,使用深度模型来研究场景分类识别以及分析任务成为主流。由于群体场景分析任务的复杂性,建立一个强大的高准确率与高泛化能力的深度学习模型需要满足三个条件:一个用于深度模型训练的大规模群体场景数据集,提取可以有效描述跨场景的群体固有性质的量化特征,以及一个功能强大的深度神经网络。本文主要利用深度学习技术对群体场景视频数据进行识别与分析,并先后提出了基于时空域融合信息的双流残差场景分析算法以及基于卷积深度特征的长短时记忆模型算法。本文的主要创新工作如下:(1)本文提出了基于时空域融合信息的双流残差场景分析算法。通过双流网络模型算法来学习并聚合静态外观特征以及动态特征,该算法基于采用多标签属性表示方法的WWW数据集中的10000段视频,首先对数据集视频流数据进行预处理,而后利用残差神经网络提取静态图像深度特征,作为双流网络静态分支的输入。同时利用KLT算法对数据集中的每一组视频帧提取轨迹描述子,在每一帧中将所提取到的轨迹描述子生成K-NN的拓扑图,轨迹描述子符合马尔科夫时域模型,通过时域数学模型可以计算出群体的聚集性,冲突性,稳定性三个群体全局量化特征,聚集性通过附近区域行为的一致性来描述,稳定性可以基于轨迹所形成的拓扑结构图中恒定邻居节点的数量来描述,冲突性通过邻近点之间的速度相关性描述。根据对以上三个群体特征的计算得到每个视频的运动图,作为双流网络动态分支的输入,通过双流网络深度模型同时对视频中的静态特征以及动态特征进行学习。实验结果表明,该算法所训练模型在群体场景分析准确率上具有一定优势,对于现实复杂场景下的分析也有较好效果。(2)本文提出了基于残差深度特征的长短时记忆模型场景分析算法。该算法受端到端网络训练方法启发,有效利用残差深度网络提取到的图像空间域深度特征,再利用LSTM网络提取时域上的动态信息,通过Dropout层降低过拟合风险之后使用Softmax分类器进行分类,本文深入讨论了算法框架中残差神经网络深度特征的提取与优化策略,包括激活函数的选取策略与池化方式的选取策略等等,在特征提取与优化中,我们对Res Net模型、Google Net模型和VGGNet模型进行了完整试验对比与分析,本算法基于大规模群体场景WWW视频数据库,针对群体场景的试验结果表明,本算法在训练性能和运算速度上有所提升,对于场景分析任务有较好的识别准确率,并有较强的泛化能力,适用于跨场景下的群体分析任务。