论文部分内容阅读
随着深度神经网络的发展以及实际应用的迫切需求,行为识别技术处于计算机视觉领域的核心地位。神经网络的进步推动了行为识别的不断进步,在很多领域具有很高的经济价值以及学术研究价值,例如智能监控、智能交通和虚拟现实等领域。行为识别大多是指对单人的行为动作进行分类,但是在实际应用当中,大多数场景都是由多人完成的,如篮球运动,商场视频监控等场景,因此,研究多人共同完成的“群组行为”有着重要的意义。本文以长短时记忆网络(LSTM,Long Short Term Memory)为网络结构的基础,构建深度网络模型,分析排球比赛中每个个体的行为和多个个体之间的交互关系,以此完成对排球比赛中群组行为的推断,以达到群组行为识别的目的。群组行为虽是由多人协同完成,但群组行为的完成往往是由起主导作用的几个核心成员所决定,其他成员对群组行为识别贡献很小甚至无关。本文将对群组行为贡献大的成员称为“关键人物”,以关键人物为核心建立模型,对其个体特征、交互特征分析推断来完成群组行为识别。基于上述思想,本文提出了基于多层级LSTM(个人级、场景级、群组级)的群组行为识别方法:首先,将跟踪到的每个成员的边界框图像和场景图像分别输入到CNN进行静态特征提取;然后,将CNN的输出作为单人LSTM网络和场景LSTM网络的输入,进行动态特征提取。其中,堆叠连续两帧之间的光流信息,计算出每个成员的平均运动强度,按照运动强度大小将其进行降序排列,平均运动强度大的个体则为长时间具有较强稳定运动的个体,即“关键人物”;再则,按照关键人物重要性顺序输入到门控融合单元GFU,GFU利用场景特征对成员进行定位,以关键人物为核心,融合成员之间以及成员和场景之间的位置关系作为群组交互信息;最后,将融合得到的群组信息输入到群组LSTM生成群组时空特征,并利用softmax分类器进行群组行为识别。实验选用公开的排球数据集进行测试,达到了86.7%的识别精度。