时空注意力模型下的视频问答

来源 :天津大学 | 被引量 : 0次 | 上传用户：binga2009

【摘要】

：

在计算机视觉和多媒体分析领域中,视频分析是一项非常重要且极具有挑战性的任务。视频问答作为视频分析的一种媒介,近年来引起了大量的关注。深度学习技术的发展在计算机视觉

【作者】

：

高昆

【出处】

：

天津大学

【发表日期】

：

2018年期

【关键词】

：

视频问答深度学习长短期记忆网络卷积神经网络

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在计算机视觉和多媒体分析领域中,视频分析是一项非常重要且极具有挑战性的任务。视频问答作为视频分析的一种媒介,近年来引起了大量的关注。深度学习技术的发展在计算机视觉和自然语言处理这两个人工智能领域取得了巨大的成功,深层卷积神经网络在多项视觉任务方面被成功应用,循环神经网络,尤其是长短期记忆网络,在自然语言处理领域被用来处理一系列序列问题。如今,研究者将视觉信息和语义信息结合起来,进行更深层的视觉内容理解。视频问答是指对给定的视频以及针对该视频提出的问题,通过获取他们的视觉信息和语义信息,对提出的问题给出合适的答案的过程。与图像相比,视频是图像在时间上的扩展,视频问答加入了时间线索,因此视频问答面临着诸多的挑战,对视频问答的研究目前还比较少。受视觉描述和图像问答的启发,在本文中,我们提出了两个基于深度学习的视频问答框架。在第一个框架中,我们设计了场景模型、动作模型和文本模型,利用设计好的场景模型获取视频帧的场景特征向量,通过动作模型获得视频帧的动作特征向量,并将其分别输入到长短期记忆网络中,进而将得到的特征作为文本模型长短期记忆网络的初始化,将视觉信息和语义信息结合在了一起。值得注意的是,在动作模型中,我们引入了光流,用来作为衡量相邻视频帧动作变化的标准。在第二个模型中,我们提出了一种基于注意力模型的视频问答方法,该模型包括编码和解码两部分。首先,我们利用设计的帧模型获取视频帧向量,然后在编码部分利用循环神经网络获得视频的视觉特征表示,然后将其作为解码部分文本模型的初始化,其中,在文本模型中我们引入了注意力机制,目的在于关注那些和问题相关的视频帧,从而更好的刻画视觉信息和文本信息之间的关系。对于这两种方法,我们均在公开的数据集上验证了模型的效果。

其他文献

先进性教育的实践定位

先进性教育是党的先进性建设的有效途径,是党的执政理论的鲜活主题实践.准确把握先进性教育的实践定位,必须从党情立足点、民情出发点、国情落脚点、时代制高点上去强化党员

期刊

共产党先进性教育实践定位

以人为本,提高媒体舆论引导能力

以人为本的新闻理念是促进新闻事业健康发展的根本途径,是增强影响力的有力方法.媒体要树立以人为本的新闻理念,要确立新的新闻价值观,更新报道内涵,明确报道主体.

期刊

以人为本媒体舆论引导能力

益盛药业:益人济世盛业百年

长白山，中国东北最伟岸雄奇的山脉，在它的南麓，有一条清澈而浩荡的大江，名为鸭绿江，江对岸就是友好邻邦朝鲜。在这白山绿水之间，坐落着一座世外桃源般的边陲古城——集安。这里是中

期刊