论文部分内容阅读
人体行为识别是计算机视觉领域的研究热点,具有广泛的应用场景,如智能视频监控,基于内容的视频搜索分析,智能监护和人机交互等,有重要的应用价值。当前对人体行为识别的研究方向可分为手工设计特征和深度学习两个方向,手工设计特征的方法特征由人工设计,容易受设计者的主观影响。深度学习的方法利用神经网络进行特征学习,能自适应地学习相应特征,是目前研究的主流方向。尽管已经取得了一些成果,当前研究仍存在不足之处:首先,目前几乎所有模型都平等看待视频各部分,很容易引入与识别不相关的噪声;其次,目前对视频的运动特征提取采用手工算法,不能通过模型自动完成,计算复杂度也较高;最后,目前的卷积神经网络模型的受到感受野和卷积方法的限制,提取的特征对视频运动分析的帮助不大。针对这些问题,做了以下工作:
①针对视频中背景帧和冗余帧的问题,提出了时域注意力机制。时域注意力机制由帧内注意力模块和帧间注意力模块组成。利用非局部连接,两个子模块分别捕捉一帧之内和帧与帧之间的全局依赖关系。通过对依赖关系进行分析,可以得出一帧属于背景或前景帧的概率,以及该帧是否与其他帧有较明显的差异。这些信息能够帮助模型忽略背景帧和冗余帧,更合理地关注对识别结果有关键作用的几帧。
②利用非局部连接分配视频的空间注意力。非局部连接将与行为类别有较高相关度的区域视为关键区域,模型在识别过程中会更关注这些区域。同时对每个特征通道间的依赖进行建模,在通道间分配注意力,使模型忽略重复性较高的冗余特征。这些信息使得模型进一步关注到运动的关键特征上。
③以光流定义公式为基础,提取简洁的运动特征表达。在空间注意力机制的输出上直接使用时空梯度来进行运动特征的表达,仅通过滤波和相减运算就能完成。整个运动表征模型可微分,可融合于任意神经网络中进一步进行学习。
本文在UCF-101和HMDB51数据集中进行了实验,最终分别得到了97.1%和78.0%的识别准确率。非局部时空残差注意力机制给基本的行为识别模型带来了7.6%和7.2%的准确率提升;相比同样运用了注意力机制的模型,本文的模型准确率至少提高了1.6%和5.3%;相比采用了类光流特征的方法,提升了准确率1.1%和3.8%。
①针对视频中背景帧和冗余帧的问题,提出了时域注意力机制。时域注意力机制由帧内注意力模块和帧间注意力模块组成。利用非局部连接,两个子模块分别捕捉一帧之内和帧与帧之间的全局依赖关系。通过对依赖关系进行分析,可以得出一帧属于背景或前景帧的概率,以及该帧是否与其他帧有较明显的差异。这些信息能够帮助模型忽略背景帧和冗余帧,更合理地关注对识别结果有关键作用的几帧。
②利用非局部连接分配视频的空间注意力。非局部连接将与行为类别有较高相关度的区域视为关键区域,模型在识别过程中会更关注这些区域。同时对每个特征通道间的依赖进行建模,在通道间分配注意力,使模型忽略重复性较高的冗余特征。这些信息使得模型进一步关注到运动的关键特征上。
③以光流定义公式为基础,提取简洁的运动特征表达。在空间注意力机制的输出上直接使用时空梯度来进行运动特征的表达,仅通过滤波和相减运算就能完成。整个运动表征模型可微分,可融合于任意神经网络中进一步进行学习。
本文在UCF-101和HMDB51数据集中进行了实验,最终分别得到了97.1%和78.0%的识别准确率。非局部时空残差注意力机制给基本的行为识别模型带来了7.6%和7.2%的准确率提升;相比同样运用了注意力机制的模型,本文的模型准确率至少提高了1.6%和5.3%;相比采用了类光流特征的方法,提升了准确率1.1%和3.8%。