融合双重时空网络流和attention机制的人体行为识别

来源 :沈阳理工大学 | 被引量 : 0次 | 上传用户:shuimeihua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
识别视频中人类的行为动作是计算机视觉重要任务之一,其目标是从视频中提取、分析和表述人体行为动作信息。受人脑视觉机理启发下,深度学习框架使得机器学习取得巨大进展,也为研究人体行为识别开拓了新方向。然而,深度学习需要大数据量、网络参数数目过多、无法为特定任务设计针对性方案等局限性,本文重点研究在有限数据限制条件下挖掘数据信息,设计泛化能力强、学习参数较少的深度神经网络,识别视频中人体行为动作。针对大部分人体行为识别仅考虑原始视频序列和数据量较小时神经网络学习行为序列空时关系容易过拟合,借鉴人类视觉皮层存在腹侧流和背部流的双流假说,本文在神经网络基础上提出融合双重时空网络流架构的人体行为识别方法,空间网络流执行视频帧目标对象识别,时间网络流执行致密光流运动识别。首先,利用由粗到细策略的Lucas-Kanade光流方法和Munsell颜色转换系统提取并转换生成RGB视频帧中富含运动信息的光流特征图像;然后,选取某时间窗口内视频,利用模型迁移学习得到的GoogLenet深度卷积神经网络,分别逐层卷积原始视频中RGB外观图像和相应的光流特征图像,自动聚合蕴含边、角和线等底层特征以生成具有显著结构性的时间流和空间流高层语义特征;其次,利用空间流和时间流中多层长短时记忆LSTM递归神经网络,交叉递归原始图像和对应光流特征图像的高层语义特征序列,解码时间窗口内隐状态层相互依赖,得到视频窗口每帧候选特征描述;最后,利用softmax分类器识别视频窗口每帧类别标签,根据即得标签序列和众数原理判断视频窗口类别标签。UCF-101数据集的实验表明,相比传统方法,本文双重时空网络流架构能提高辨识人体行为动作序列能力,识别准确率较高;空间网络识别对象且补充时间网络纹理信息缺失,时间网络限制整体网络参数的稀疏性,时空网络交叉传输多层LSTM递归神经网络隐状态参数,防止过拟合。鉴于人类识别行为时注意力通常聚焦在某重点区域以准确获取目标信息的认知原理,本文在双重时空网络流架构基础上提出空间维attention选择模型关注视频帧内在显著性区域,模拟人类注意力转移机制。其中,利用空间流GoogLenet深度卷积神经网络提取原始图像序列的高层结构化视觉特征显著图序列;其次,针对相应光流特征图像高层语义特征序列,采用时间流多层LSTM递归神经网络解码输出时间网络流视觉特征描述子序列,并采用softmax函数学习空间维attention显著性权重系数矩阵;接着,利用即得空间网络流特征显著图序列与空间维attention显著性权重系数矩阵加权累加生成特征激活图序列,其中高值表示兴趣区域,即得空间流多层LSTM递归神经网络显著性输入特征;最后,利用时空流softmax分类器识别视频序列行为动作类别。UCF-11数据集实验表明,空间维attention模型关注人体行为视频图像中最显着区域,可从背景中推断当前行为动作,其优点在于降低视频序列区域相关性计算成本,提高动作判别性。针对现实视频通常包含大量冗余和易混淆帧,本文在双重时空网络流架构基础上提出时间维attention选择模型,判读每一帧相对视频序列行为动作的相关性,选择关键帧识别人体行为。其中,针对原始图像序列和对应的光流特征图像序列,利用双重时空网络流多层LSTM解码输出时空网络流视觉特征描述子序列,并利用softmax分类器计算空间流帧序列的标签概率分布矩阵;接着,根据即得时空网络流视觉特征描述子序列,利用相对熵代价函数计算行为动作在时间维上每一帧的attention置信度得分系数,并与空间网络流感知序列标签概率分布矩阵中相应帧的列向量数乘,得到每一帧相对视频序列帧动作类别的缩放概率分布;最后,利用softmax分类器决策识别视频序列行为动作类别。UCF-11数据集实验表明,对某时间窗口内视频序列,时间维attention模型根据帧图像中动作置信水平和动作在时间依赖上的关联度,选择性关注人体行为动作序列中重点对象,稳健优选动作强相关的视频帧参与分类,从而排除冗余帧和易混淆视频帧,提高行为动作识别准确度。
其他文献
无线传感器网络是一种融合了计算机、微电子和通信的新兴技术,广泛应用在国防军事、环境监测和医疗监控等领域。随着无线传感器网络的广泛应用,其安全问题显得愈加重要,而密
基于公共交换电话网络(PSTN)的语音通信已经在全球普及,但PSTN信道上的语音通信也存在着大量安全威胁,窃听、冒充等手段都是电话信道上常见的攻击方式。对于一些特殊部门而言,利
多址接入技术是无线通信的关键技术之一,其核心内容是如何使多个用户之间共享有限的通信资源而不会相互干扰。Li Ping等人在码分多址的基础上提出一种前景广阔的新的多址接入
人脸检测与跟踪技术是计算机视觉和模式识别领域的一个研究热点,在智能人机交互、智能游戏控制、虚拟现实以及基于内容的压缩编码等方面都具有广阔的应用前景。近年来随着视频
MIL-STD-1553B总线是上世纪70年代由美国军方提出的最先应用于军用航空领域的具有可确定性、传输可靠的数据总线标准,主要应用于信息需要在总线终端之间通过数字通信通道传输
随着通信技术和传感器技术的发展,无线传感器网络在医学领域发挥着越来越重要的作用,无线体域网(WBAN)技术应运而生。无线体域网和传统的无线传感器网络尽管有很多相似之处,
目前,相关技术在水声信号处理中得到广泛的应用,而浅海信道条件下水下声信号的相关性是水声信号检测与估计的重要基础。本文主要对浅海信道条件下宽带声信号的相关性进行了仿真
Turbo码作为一种高性能的信道编码,以其优异的性能及逼近Shannon容量限的编码方式,在通信领域得到了广泛应用。本文对Turbo码的编译码原理及其硬件语言实现进行了深入的学习
相比于传统的直接存储转发的路由方法,网络编码允许网络的中间节点参与编码,从而可相应提高网络的吞吐量、可靠性、安全性等。但是传统的基于路由方法的网络安全机制并不适用
传统的物理层安全通信只研究信息的安全传输或者系统的能量消耗,而这两者相互冲突且越来越难以满足人们对无线通信系统的高要求,因此寻求有效均衡两者的方法成为无线通信系统