论文部分内容阅读
识别视频中人类的行为动作是计算机视觉重要任务之一,其目标是从视频中提取、分析和表述人体行为动作信息。受人脑视觉机理启发下,深度学习框架使得机器学习取得巨大进展,也为研究人体行为识别开拓了新方向。然而,深度学习需要大数据量、网络参数数目过多、无法为特定任务设计针对性方案等局限性,本文重点研究在有限数据限制条件下挖掘数据信息,设计泛化能力强、学习参数较少的深度神经网络,识别视频中人体行为动作。针对大部分人体行为识别仅考虑原始视频序列和数据量较小时神经网络学习行为序列空时关系容易过拟合,借鉴人类视觉皮层存在腹侧流和背部流的双流假说,本文在神经网络基础上提出融合双重时空网络流架构的人体行为识别方法,空间网络流执行视频帧目标对象识别,时间网络流执行致密光流运动识别。首先,利用由粗到细策略的Lucas-Kanade光流方法和Munsell颜色转换系统提取并转换生成RGB视频帧中富含运动信息的光流特征图像;然后,选取某时间窗口内视频,利用模型迁移学习得到的GoogLenet深度卷积神经网络,分别逐层卷积原始视频中RGB外观图像和相应的光流特征图像,自动聚合蕴含边、角和线等底层特征以生成具有显著结构性的时间流和空间流高层语义特征;其次,利用空间流和时间流中多层长短时记忆LSTM递归神经网络,交叉递归原始图像和对应光流特征图像的高层语义特征序列,解码时间窗口内隐状态层相互依赖,得到视频窗口每帧候选特征描述;最后,利用softmax分类器识别视频窗口每帧类别标签,根据即得标签序列和众数原理判断视频窗口类别标签。UCF-101数据集的实验表明,相比传统方法,本文双重时空网络流架构能提高辨识人体行为动作序列能力,识别准确率较高;空间网络识别对象且补充时间网络纹理信息缺失,时间网络限制整体网络参数的稀疏性,时空网络交叉传输多层LSTM递归神经网络隐状态参数,防止过拟合。鉴于人类识别行为时注意力通常聚焦在某重点区域以准确获取目标信息的认知原理,本文在双重时空网络流架构基础上提出空间维attention选择模型关注视频帧内在显著性区域,模拟人类注意力转移机制。其中,利用空间流GoogLenet深度卷积神经网络提取原始图像序列的高层结构化视觉特征显著图序列;其次,针对相应光流特征图像高层语义特征序列,采用时间流多层LSTM递归神经网络解码输出时间网络流视觉特征描述子序列,并采用softmax函数学习空间维attention显著性权重系数矩阵;接着,利用即得空间网络流特征显著图序列与空间维attention显著性权重系数矩阵加权累加生成特征激活图序列,其中高值表示兴趣区域,即得空间流多层LSTM递归神经网络显著性输入特征;最后,利用时空流softmax分类器识别视频序列行为动作类别。UCF-11数据集实验表明,空间维attention模型关注人体行为视频图像中最显着区域,可从背景中推断当前行为动作,其优点在于降低视频序列区域相关性计算成本,提高动作判别性。针对现实视频通常包含大量冗余和易混淆帧,本文在双重时空网络流架构基础上提出时间维attention选择模型,判读每一帧相对视频序列行为动作的相关性,选择关键帧识别人体行为。其中,针对原始图像序列和对应的光流特征图像序列,利用双重时空网络流多层LSTM解码输出时空网络流视觉特征描述子序列,并利用softmax分类器计算空间流帧序列的标签概率分布矩阵;接着,根据即得时空网络流视觉特征描述子序列,利用相对熵代价函数计算行为动作在时间维上每一帧的attention置信度得分系数,并与空间网络流感知序列标签概率分布矩阵中相应帧的列向量数乘,得到每一帧相对视频序列帧动作类别的缩放概率分布;最后,利用softmax分类器决策识别视频序列行为动作类别。UCF-11数据集实验表明,对某时间窗口内视频序列,时间维attention模型根据帧图像中动作置信水平和动作在时间依赖上的关联度,选择性关注人体行为动作序列中重点对象,稳健优选动作强相关的视频帧参与分类,从而排除冗余帧和易混淆视频帧,提高行为动作识别准确度。