论文部分内容阅读
视频动作识别技术是人工智能领域中的热点研究课题,其目的在于分析视频中人体动作并将其正确分类,已广泛应用于安防监控等领域。按输入视频类型划分,视频动作识别算法可分为压缩域和像素域(非压缩域)算法。其中,压缩域动作识别算法一般比像素域动作识别算法的计算量更小,这是因为视频编码过程中,去除了视频的时间和空间冗余,使网络更容易获取人体运动相关信息。相比于像素域,压缩域动作识别算法也存在信息量不足、识别精度低等缺点。就现有压缩域动作识别算法而言,使用运动矢量替代光流可降低模型计算量,但运动矢量的动作表征(Motion Representation)能力弱于光流。同时,现有压缩域动作识别算法使用2D网络获取运动时序信息的能力有限,影响识别精度。针对这些不足,本文分析了现有压缩域动作识别算法,并提出改进算法,具体研究内容如下:1、针对压缩域运动矢量和残差存在噪声干扰,以及低分辨率等缺点,本文分析了压缩视频在动作识别任务的优势后,设计了一种基于压缩域运动矢量和残差的融合信息。该融合信息降低运动矢量噪声,提高运动目标精度,使网络更专注于运动目标区域,丰富了网络输入的多样性。在该过程中,模型利用视频帧的时间连续性和空间紧凑性,去除运动矢量与残差的干扰噪声(如背景、孤立值等);同时以通道叠加的方式融合运动矢量与残差,增强了压缩域融合信息表征人体动作的能力;最后进行消融实验,并分析实验结果。实验表明,与压缩域动作识别算法CoViAR相比,在计算成本相当的情况下,本文算法的识别精度更高,证明了该融合信息在动作识别中的有效性。2、针对现有压缩域动作识别模型获取运动时间信息能力有限,进而影响识别精度的缺点。本文在高效卷积网络ECO基础上,设计了一种基于压缩域信息的双流网络视频动作识别模型。该模型以I帧和压缩域融合信息作为网络输入,代替像素域RGB与光流,而无需预先计算光流,降低了模型的整体计算成本;同时以多维度信息输入,提升模型的识别性能。实验表明,本文算法的识别精度比压缩域动作识别算法DMC-Net/MFCD-Net的识别精度更高,同时在计算成本上远远低于I3D算法,也验证了本文算法的识别效果。