论文部分内容阅读
在计算机视觉和多媒体分析领域中,视频分析是一项非常重要且极具有挑战性的任务。视频问答作为视频分析的一种媒介,近年来引起了大量的关注。深度学习技术的发展在计算机视觉和自然语言处理这两个人工智能领域取得了巨大的成功,深层卷积神经网络在多项视觉任务方面被成功应用,循环神经网络,尤其是长短期记忆网络,在自然语言处理领域被用来处理一系列序列问题。如今,研究者将视觉信息和语义信息结合起来,进行更深层的视觉内容理解。视频问答是指对给定的视频以及针对该视频提出的问题,通过获取他们的视觉信息和语义信息,对提出的问题给出合适的答案的过程。与图像相比,视频是图像在时间上的扩展,视频问答加入了时间线索,因此视频问答面临着诸多的挑战,对视频问答的研究目前还比较少。受视觉描述和图像问答的启发,在本文中,我们提出了两个基于深度学习的视频问答框架。在第一个框架中,我们设计了场景模型、动作模型和文本模型,利用设计好的场景模型获取视频帧的场景特征向量,通过动作模型获得视频帧的动作特征向量,并将其分别输入到长短期记忆网络中,进而将得到的特征作为文本模型长短期记忆网络的初始化,将视觉信息和语义信息结合在了一起。值得注意的是,在动作模型中,我们引入了光流,用来作为衡量相邻视频帧动作变化的标准。在第二个模型中,我们提出了一种基于注意力模型的视频问答方法,该模型包括编码和解码两部分。首先,我们利用设计的帧模型获取视频帧向量,然后在编码部分利用循环神经网络获得视频的视觉特征表示,然后将其作为解码部分文本模型的初始化,其中,在文本模型中我们引入了注意力机制,目的在于关注那些和问题相关的视频帧,从而更好的刻画视觉信息和文本信息之间的关系。对于这两种方法,我们均在公开的数据集上验证了模型的效果。