论文部分内容阅读
人体行为识别技术是计算机视觉领域的重要研究方向,是视频监控、人机交互、视频检索、虚拟现实等领域的关键技术,有重要的研究价值。深度学习技术在计算机视觉领域的应用,促进了人体行为识别技术的发展。然而,由于人体行为的高复杂性与多变性,以及复杂背景对人体行为识别的干扰等问题的存在,导致人体行为识别技术在现实中的应用面临众多挑战。本文主要针对视频中的人体行为进行识别,围绕人体行为识别的关键技术展开研究,具体工作概括如下:(1)在人体行为的特征提取方面,以DenseNet为基础,提出一种DenseNet3D卷积神经网络用于人体行为识别。该网络采用3D卷积层进行特征提取,在神经网络中引入时空信息用于提高网络性能;构建网络结构时,在将网络前后两层直接连接的同时,在不同网络层之间实现跨层连接,使底层网络提取到的特征能直接映射到顶层,达到加强特征传播,减少网络参数的目的。该网络针对人体行为的高复杂性与多变性,能充分利用时空信息,提高网络中的特征利用率与识别准确率。本文在UCF101行为数据库中对方法进行验证,实验结果表明该网络能有效提高人体行为识别的准确率。(2)在DenseNet3D卷积神经网络的基础上,本文提出基于双流DenseNet3D网络的人体行为识别方法。该方法利用DenseNet3D卷积神经网络分别对光流样本与RGB视频图像样本进行特征提取,其中光流样本的生成采用TV-L1光流算法,该算法利用双向求解机制来降低提取光流的运算量;在分类识别阶段,本方法利用双流网络的得分特征融合机制,将由视频图像与光流通过DenseNet3D网络得到的RGB得分特征与光流得分特征进行融合,生成融合特征并识别。该融合特征同时含有视频图像信息与光流信息,在卷积神经网络引入光流能够减少视频图像中复杂背景对人体行为识别的干扰,进一步提高了人体行为识别的准确率。