基于深度学习的人类行为识别和视频描述生成

来源 :电子科技大学 | 被引量 : 3次 | 上传用户:sailer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频智能分析一直是计算机视觉领域的研究热点。其中涉及到不同的研究问题,包括视频语义分割,视频追踪,视频检索,行为识别以及视频描述生成等等。为了更进一步构建视频内容与高层语义之间的桥梁,本文围绕两个具体的视频应用进行深入研究:视频中的行为识别和视频描述生成。具体而言,我们把行为识别视作低层语义分类问题。而将视频描述问题视作为高层语义生成问题。因为该任务要求同时理解视觉内容和自然语言。而针对这些问题的挑战,本文具体研究两个问题:1)如何构建一个算法计算视频对应的模式。2)如何构建一个有效的计算框架来架起视频内容与自然语言的桥梁。对于视频中的行为识别而言,传统的方法将此问题化为多分类问题,并且提出了不同的视频特征提取方法。然而,传统的方法基于低层信息进行提取,比如从视觉纹理信息或者视频中的运动估计值。由于提取的信息单一,不能很好的代表视频内容,进而导致所优化的分类器并不是最优的。而作为深度学习中的一项技术,卷积神经网络将特征学习和分类器学习融合为一个整体,并且成功应用在视频中的行为识别方面。然而,当前提出的并应用在行为识别方面的卷积神经网络框架仍具有三种限制:1)输入网络的视频的空间尺寸必须固定大小;2)输入网络的视频的时长固定;3)网络提取短时序结构的特征。这使得网络模型应用在极强的限制条件下,不利于现实场景下的应用扩展。为了解决以上的问题,本文提出一种基于3D卷积网络的端到端识别模型。该模型实现在任意尺度和时长的视频条件下进行行为识别。具体而言,首先将一个视频划分为一系列连续的视频片段。然后,将连续的视频片段输入到由卷积计算层和时空金字塔池化层组成的3D神经网络得到连续的视频片段特征。然后通过长短记忆模型计算全局的视频特征作为行为模式。我们在UCF101,HMDB51和ACT三个通用的数据集上评估提出的模型。实验结果显示,和目前流行的2D或3D为基础的神经网络模型相比,提出的方法在识别性能上得到了提升。在视频描述生成方面,以编码-解码为基础的框架已经得到了广泛的应用。最近,时序注意力机制已经被提出并且被证明能够提升以编码-解码为基础的描述生成模型的性能。然而,时序注意力机制只解决了视频内容的选取。对于语句的上下文则是由先验语义而定。然而,在视频描述生成这个方面,目前的方法没有同时考虑时序注意力机制和先验语义建模。为了解决这个问题,本文提出一个新的端到端的神经网络模型,能够将高层的视觉语义概念融入到时序注意力机制,并促进生成更准确的视频描述。在提出的框架中,编码神经网络模型用于提取视频的视觉特征,并且通过该特征预测语义概念。同时,解码神经网络根据视觉特征与语义信息来生成连贯的自然语言句子。具体而言,解码神经网络结合了视觉特征和语义表达特征。并且将语义信息和注意力机制嵌入到GRU神经网络单元中去更加准确的学习句子的生成。本文在两个代表性的数据集上(MSVD和MSRVTT)验证提出的框架。实验结果显示提出的网络模型在BLEU和METEOR两个评价标准上,比以往的方法得到更好的性能评估。
其他文献
<正>党的十九大报告就人才工作提出了一系列新思想新理念新论断,深刻彰显了党对人才规律的透彻认识和对人才工作的高度重视,清晰阐明了人才工作的指导思想、基本原则和着力点
本程序主要针对县级气象局在汛期值守班和气象服务工作中对于区域站两要素资料运用的需求基于VB6.0所开发,功能包括:雨情通报自动生成;雨情报警;任意时段总雨量、平均温度和积
在现代企业内部管理中,预算管理是一项非常重要的管理工具和方法,它的顺利实施能够促进企业战略发展目标的实现,并且有助于企业内部各职能部门之间的有效沟通、加强对企业内
本文论述了预制楼板板缝开裂的几种原因,并针对其原因提出了相应的防治措施.
中国上下五千年,文化底蕴相当的雄厚。所以,无论是从文化上来讲,还是从艺术上来论,中国的传统工笔人物画都有着不同程度的进步,这一进步主要是画家对于工笔人物画的传承与创
本文通过对荷载分项系数在新规范中的部分调整的论述,反映出我国在结构安全可靠度控制方面的进步.