视频理解中人体动作的细粒度表示与应用

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：root1234789

【摘要】

：

计算机视觉的终极目标是使机器能够理解视觉媒体,包括绘画、照片和视频等。由于深度学习技术的高速发展,我们目前几乎可以很好地解决静态图像的理解任务,如图像分类、目标检

【作者】

：

韩婷婷

【出处】

：

哈尔滨工业大学

【发表日期】

：

2004年期

【关键词】

：

视频理解细粒度动作表示视觉关注时序建模语义挖掘

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

计算机视觉的终极目标是使机器能够理解视觉媒体,包括绘画、照片和视频等。由于深度学习技术的高速发展,我们目前几乎可以很好地解决静态图像的理解任务,如图像分类、目标检测、甚至图像的语义分割。然而,视频的理解却是最复杂且富有挑战的,其关键原因在于额外的时间维度的信息,尤其是当涉及到非常相似的类别的区分时,问题则变得更加困难。这属于细粒度动作分析的问题,通常要求模型能够捕获相似的动作之间在局部表观和运动上的微小差异。细粒度动作的分析有许多潜在的应用,例如,精确的动作分类与检测,智能体育分析,行人重识别,智能的人机交互等。在对相关研究现状的分析基础上发现细粒度动作分析的发展主要受到三方面挑战的制约:一个难点来自于底层动作特征到高层语义之间的语义鸿沟;另一个是如何刻画整体上高度相似的动作间的局部微小差异;最后是特征学习时时域信息建模的缺失。对于细粒度动作进行分析,时空上下文的建模比以往显得更为重要。本文针对细粒度动作分析中的上述问题,分别从特征选择和特征学习的推理层面进行研究,期望挖掘能够有效捕捉高层语义概念的中层动作模式;提取对于局部差异更加敏感细粒度动作表示;对时序信息进行有效建模进一步提高对细粒度动作的理解能力;具体地,本文的主要研究内容和主要贡献分为以下三个方面:首先,本文以舞蹈动作为例,挖掘其隐含的细粒度“风格”语义。为了建立底层动作特征到高层语义之间的桥梁,本文提出自动挖掘一组有意义的中层动作模式来构成一个全新的中层表示,舞蹈元(Dancelets)。为了保证构建的中层表示的有效性,在舞蹈元挖掘过程中,依次利用Normalized Cut和线性判别分析方法来约束舞蹈元的代表性和判别性。最终,本文设计了一个基于自动挖掘的舞蹈风格的视频推荐方法。为了验证所提出的细粒度语义挖掘方法的有效性,本文构建了一个细粒度动作分析数据集,HIT Dances。在该数据集上的大量实验结果证明了所提出的基于风格的舞蹈视频推荐方法的有效性。其次,为了定位细粒度动作间的局部差异,本文提出一个全新的细粒度动作表示,动作显著约束的深度卷积描述子(ADD)。由于细粒度动作通常在表观和运动模式上共享了非常高的相似性,仅在局部区域存在微小的差异,受到人类视觉系统的启发,本文提出将视觉关注机制整合到细粒度动作特征提取过程中,以actionness(一种动作显著性估计)为线索提取特征。不同于以往的动作表示模型全局地、一致地从整个视频内容中抽取特征,本文提出结合深度卷积神经网络中间层特征,从更有可能包含动作的子区域进行特征抽取,从而使得ADD能够捕获细粒度动作间的微小差异,具有更强的表示能力。在HIT Dances数据集上量化的实验结果表明ADD显著地超越了传统的基于CNN的动作表示方法。在JHMDB和UCF101两个一般动作识别数据集上的大量的实验还表明,将ADD与传统的动作表示相结合后,对于一般动作的识别任务也能产生明显的促进作用,提高了识别的性能。此外,利用ADD描述子,本文验证了动作数据中存在的稀疏特性。最后,本文提出利用卷积神经网络(CNN)来端到端地学习细粒度动作表示。为此,三元组约束被整合到模型的训练过程中。三元组损失允许我们通过训练将输入动作映射到期望的嵌入空间,以使得在嵌入空间中的L2距离与动作之间的相似性相对应,保证相同类别的动作的距离更小,不同类别的动作具有更大的距离。此外,鉴于不同的动作可能共享相同的动作模式,但动作模式往往出现在不同动作的不同时间位置的事实,本文将这种能够促进细粒度动作识别的时序差异嵌入到特征学习中。具体地,本文提出时序三元组损失,并与分类约束相结合,联合地对网络进行训练,最终使得网络的输出有效地嵌入时间上下文信息。本文提出了一个大规模可用于端到端网络训练的细粒度动作数据集,Figure Skating,并设计了多组实验来验证所提出的特征表示。实验结果表明,利用时序三元组进行联合学习得到的细粒度动作表示能够精确地区分细粒度动作,并且能够在相似动作干扰的情况下有效地发现相同类别的动作。通过上述研究,本文对细粒度动作的表示和相关应用进行了深入地探索,为细粒度动作分析所面临的关键问题提供了切实可行和有效的解决方案。结果表明:自动挖掘的中层表示能够有效地捕获高层的语义概念,基于细粒度风格语义的舞蹈匹配能够产生更具有个性化的视频推荐结果;通过引入视觉关注机制,可以提取更具有判别性的细粒度动作特征,从而提升细粒度动作识别的性能;联合地优化分类和三元组约束有效增强了细粒度动作嵌入表示的判别性,嵌入时空上下文差异进一步提升了动作表示的性能。此外,本文实现了在细粒度视频推荐、细粒度动作识别以及智能教练系统中细粒度动作搜索的应用。

其他文献

地质岩心钻探在资源勘探上的应用

在资源勘探中,地质岩心钻探的技术起着很大的作用,它在很多领域中都有很重要的地位,如煤炭、地矿、化工,以及冶金行业等。从现在的资源勘探技术来看,地质岩心钻探是进行资源

期刊

资源勘探地质岩心钻探钻探技术技术应用

论农村扶贫机制的转换

论农村扶贫机制的转换白永秀，任保平社会主义的根本任务是解放和发展生产力，逐渐消灭两极分化，实现共同富裕。为了实现这一根本任务，一方面应当加大对计划经济旧体制改革的力度，尽

期刊

扶贫机制白永秀生产力生产经营能力

《共产党宣言》发表以来世界发生的主要变化

<正> 马克思主义要与进俱进,随着时代的前进而不断发展。那么,马克思主义创立以来,世界到底发生了哪些变化?请看——《共产党宣言》是马克思主义的奠基之作和科学社会主义的

期刊

社会主义制度马克思主义哲学《共产党宣言》主要变化

不同剂量的右美托咪定对老年高血压患者全麻拔管期的应用效果比较

目的观察不同剂量右美托咪定对老年高血压患者全麻拔管期的应用效果。方法 2016年5月至2 0 1 8年1月该院收治的行腹腔镜下子宫切除术的老年高血压子宫肌瘤患者7 5例,随机分为

期刊

右美托咪定全身麻醉老年高血压

浅谈QM200GY越野车后轮鼓式制动改装盘式制动（1）

作为济南轻骑力推的一款高端越野摩托车，QM200GY（战獒）从一开始便收获了较多荣誉。无论从外观造型设计、整车性能还是零部件产品质量方面，无一不体现了这款车的与众不同。在代表

期刊

盘式制动鼓式制动越野车改装后轮外观造型设计越野摩托车产品质量

现代摩托车用氧传感器的结构原理与检修（2）

（上接2012年第10期）图12所示为安装在三元催化转换器上的氧传感器,图13所示为美国波斯霍斯（BOSS HOSS）BHC-3 502巡航摩托车三元催化转换器前端排气管上安装的2只前置氧传感器（每根

期刊

氧传感器巡航摩托车结构原理三元催化转换器检修车用理论空燃比电脑ECU

三氧化二砷对人骨肉瘤U2-OS细胞影响的实验研究

背景和目的骨肉瘤是一种恶性间叶性肿瘤,多发于青少年,侵袭性及破坏能力较强,手术后较容易复发。三氧化二砷(arsenic trioxide As2O3)是传统中药砒霜的有效成分之一。70年代

学位

三氧化二砷US-OS细胞系骨肉瘤增殖细胞周期凋亡

叶圣陶始创“语文”一词

<正>我们对语文课本和语文课都印象深刻,也想当然地以为"语文"一词历史上早就存在了。其实不然。我国传统上确实有"语文学",但那是文字学、音韵学、训诂学等偏重于从文献角度

期刊

叶圣陶华北人民政府编审委员会

提高投资胜率

一买就涨,一卖就跌,有经验的投资人应该不会再有这样的幻想。但有些提高投资胜率的办法,却是我们触手可及的,只要肯付出一些代价。一个关于美国基民的调查显示,过去20年间投

期刊

股票型基金投资者

PPAR-γ及15-LOX-2在前列腺癌中的表达和意义以及替米沙坦对PC3细胞的影响

目的:观察过氧化物酶体增殖激活物受体(peroxisome proliferator-actived receptorγ,PPAR-γ)及15-脂氧合酶-2(15-lipoxygenase-2,15-LOX-2)在前列腺癌中的表达,探讨其意义

学位

PPAR-γ15-LOX-2前列腺癌免疫组织化学替米沙坦凋亡

视频理解中人体动作的细粒度表示与应用

其他学术论文