论文部分内容阅读
新的计算技术的发展以及大型数据集的增多正在改变众多领域的研究及发展方向。机器学习尤其是深度学习技术得益于此,取得了惊人的进步。近年来,深度学习技术被广泛的应用在自然语言处理以及计算机视觉等领域。在某些单模态任务上,深度学习模型的性能甚至超过了人类。像视觉问答等跨模态的任务逐渐得到了众多研究者的关注。给定一张图片和一个与图像相关的问题,视觉问答模型需要理解并融合这两个模态的信息,并确定答案。在视觉问答任务中多模态注意力机制是现阶段常用的解决方案。模型常常使用堆叠注意力模型的方式提升模型的推理能力,但这种方法忽略了问题在推理过程中的引导作用。因此在本文中我们借鉴了循环神经网络的特点,提出问题引导的视觉推理单元,推理单元用记忆保存我们需要的图像信息。具体地,在每一次迭代时,我们首先通过一个指令生成模块生成问题指令;然后使用视觉注意力网络获取图像在该指令引下的显著特征;最后这一特征将通过门限机制更新推理单元的记忆。在经过多次循环后,我们使用最终的记忆生成答案。视觉注意力尽管可以关注图像中的显著区域,但并不能捕捉到图像中的视觉关系,而视觉关系对于回答复杂的尤其是涉及到物体关系的问题是不可或缺的。在本文中,我们将图像中的物体看作图的节点,并假设任意两个节点之间都有联系,然后我们利用图注意力网络对节点进行更新,以此来捕捉图像中物体之间的联系。与传统的图注意力网络不同,在本文中我们强调了问题在图节点更新中的引导作用。一方面我们通过问题指令引导相邻节点与中心节点的注意力分布,另一方面使用通道注意力对邻居节点的信息进行过滤。经过多次对图节点进行更新,问题引导的图注意力网络能够在图像中捕捉到丰富的上下文信息。实验结果显示,我们的网络在VQA2.0和GQA平衡数据集中,都取得了先进的效实验果。