论文部分内容阅读
视频内容的动作识别在计算机视觉领域是一项重要研究课题,也是目前非常有挑战性的热点问题,其中包含了计算机视觉、模式识别、人工智能等多个学科。随着视频数据的急速膨胀,视频的内容分类吸引了人们的注意力,这项任务对于监控视频、行为检测、异常事件预警、虚拟现实等多种场景具有学术领域的理论研究指导意义和巨大的商业价值。在早期做动作识别这一任务主要是利用视频图像的底层特征进行量化处理,具体可以分为三步操作:(1)视频帧的预处理和局部特征的提取;(2)特征池化并量化;(3)基于量化后特征进行分类器训练。运用传统方法做动作识别任务的方法中,使用改进的密集轨迹特征并且进行费舍尔量化是当前最好的方法,在多个公开的数据集中取得最出色的性能。然而,这种传统特征还是存在多方面的问题,例如特征的存储空间过大,提取时间太慢无法满足实时需要,性能提升遇到瓶颈等问题。随着近些年数据量的爆炸式的增长,和深度学习在计算机视觉领域的异军突起。深度学习方法已经在多个计算机视觉领域相比传统方法性能大幅度的提升。然而,动作识别的这个领域却是一个特例,深度学习在动作视频分类领域进展相对缓慢,这主要是由于现有的标注视频数据较少,且视频相比于图像包含的信息更加复杂,无法像训练图片分类问题那样训练出一个有性能优势的视频分类网络。这种现象也突显了视频动作识别的复杂性,同时深度学习的方法有其特有的优势,所以研究者们都在不懈的探索,期待深度学习能在这一领域有突破性的进展,本文也是基于深度学习框架处理视频动作识别的研究。基于深度学习的方法和最新的进展,文章也提出两方面的探索:(1)传统视觉特征与深度特征融合的动作识别方法;(2)注意力模型的深度学习识别方法。第一种方法充分利用传统特征能够提取到的时间信息和深度特征能提取到的场景信息,有效的将这两种互补的信息融合到一起提高动作识别的准确率。第二种方法是进一步的探索深度网络模型,并在深度卷积网络的基础上设计注意力模型进行视频分类。相比较传统方法,本文提出的几种方法具有实现快速、特征占空间小、性能更高的优势,并且在多个公开数据集上面得到了性能验证。