论文部分内容阅读
计算机视觉的终极目标是使机器能够理解视觉媒体,包括绘画、照片和视频等。由于深度学习技术的高速发展,我们目前几乎可以很好地解决静态图像的理解任务,如图像分类、目标检测、甚至图像的语义分割。然而,视频的理解却是最复杂且富有挑战的,其关键原因在于额外的时间维度的信息,尤其是当涉及到非常相似的类别的区分时,问题则变得更加困难。这属于细粒度动作分析的问题,通常要求模型能够捕获相似的动作之间在局部表观和运动上的微小差异。细粒度动作的分析有许多潜在的应用,例如,精确的动作分类与检测,智能体育分析,行人重识别,智能的人机交互等。在对相关研究现状的分析基础上发现细粒度动作分析的发展主要受到三方面挑战的制约:一个难点来自于底层动作特征到高层语义之间的语义鸿沟;另一个是如何刻画整体上高度相似的动作间的局部微小差异;最后是特征学习时时域信息建模的缺失。对于细粒度动作进行分析,时空上下文的建模比以往显得更为重要。本文针对细粒度动作分析中的上述问题,分别从特征选择和特征学习的推理层面进行研究,期望挖掘能够有效捕捉高层语义概念的中层动作模式;提取对于局部差异更加敏感细粒度动作表示;对时序信息进行有效建模进一步提高对细粒度动作的理解能力;具体地,本文的主要研究内容和主要贡献分为以下三个方面:首先,本文以舞蹈动作为例,挖掘其隐含的细粒度“风格”语义。为了建立底层动作特征到高层语义之间的桥梁,本文提出自动挖掘一组有意义的中层动作模式来构成一个全新的中层表示,舞蹈元(Dancelets)。为了保证构建的中层表示的有效性,在舞蹈元挖掘过程中,依次利用Normalized Cut和线性判别分析方法来约束舞蹈元的代表性和判别性。最终,本文设计了一个基于自动挖掘的舞蹈风格的视频推荐方法。为了验证所提出的细粒度语义挖掘方法的有效性,本文构建了一个细粒度动作分析数据集,HIT Dances。在该数据集上的大量实验结果证明了所提出的基于风格的舞蹈视频推荐方法的有效性。其次,为了定位细粒度动作间的局部差异,本文提出一个全新的细粒度动作表示,动作显著约束的深度卷积描述子(ADD)。由于细粒度动作通常在表观和运动模式上共享了非常高的相似性,仅在局部区域存在微小的差异,受到人类视觉系统的启发,本文提出将视觉关注机制整合到细粒度动作特征提取过程中,以actionness(一种动作显著性估计)为线索提取特征。不同于以往的动作表示模型全局地、一致地从整个视频内容中抽取特征,本文提出结合深度卷积神经网络中间层特征,从更有可能包含动作的子区域进行特征抽取,从而使得ADD能够捕获细粒度动作间的微小差异,具有更强的表示能力。在HIT Dances数据集上量化的实验结果表明ADD显著地超越了传统的基于CNN的动作表示方法。在JHMDB和UCF101两个一般动作识别数据集上的大量的实验还表明,将ADD与传统的动作表示相结合后,对于一般动作的识别任务也能产生明显的促进作用,提高了识别的性能。此外,利用ADD描述子,本文验证了动作数据中存在的稀疏特性。最后,本文提出利用卷积神经网络(CNN)来端到端地学习细粒度动作表示。为此,三元组约束被整合到模型的训练过程中。三元组损失允许我们通过训练将输入动作映射到期望的嵌入空间,以使得在嵌入空间中的L2距离与动作之间的相似性相对应,保证相同类别的动作的距离更小,不同类别的动作具有更大的距离。此外,鉴于不同的动作可能共享相同的动作模式,但动作模式往往出现在不同动作的不同时间位置的事实,本文将这种能够促进细粒度动作识别的时序差异嵌入到特征学习中。具体地,本文提出时序三元组损失,并与分类约束相结合,联合地对网络进行训练,最终使得网络的输出有效地嵌入时间上下文信息。本文提出了一个大规模可用于端到端网络训练的细粒度动作数据集,Figure Skating,并设计了多组实验来验证所提出的特征表示。实验结果表明,利用时序三元组进行联合学习得到的细粒度动作表示能够精确地区分细粒度动作,并且能够在相似动作干扰的情况下有效地发现相同类别的动作。通过上述研究,本文对细粒度动作的表示和相关应用进行了深入地探索,为细粒度动作分析所面临的关键问题提供了切实可行和有效的解决方案。结果表明:自动挖掘的中层表示能够有效地捕获高层的语义概念,基于细粒度风格语义的舞蹈匹配能够产生更具有个性化的视频推荐结果;通过引入视觉关注机制,可以提取更具有判别性的细粒度动作特征,从而提升细粒度动作识别的性能;联合地优化分类和三元组约束有效增强了细粒度动作嵌入表示的判别性,嵌入时空上下文差异进一步提升了动作表示的性能。此外,本文实现了在细粒度视频推荐、细粒度动作识别以及智能教练系统中细粒度动作搜索的应用。