论文部分内容阅读
视觉问答(Visual Question Answering,VQA)是计算机视觉(Computer Vision,CV)和自然语言处理(Nature Language Processing,NLP)领域的前沿交叉热点任务。当前有几种效果较好的主流方法。通过组合卷积神经网络(Convolution Neural Network,CNN)和循环神经网络(Recurrent Neural Network,RNN),来实现视觉问答。通过在神经网络架构中加入记忆力(Memory)和注意力(Attention)机制来提高视觉问答系统的某系推理能力,动态记忆网络(Dynamic memory network,DMN)就是其典型代表,并在各种VQA任务中评分较高。在CNN中加入动态参数,且动态参数的权重基于问题自适应地确定的方法,也在各项任务重取得了好的效果。然而,CNN-RNN组合的方法,没有明确表示高层语义概念,而是试图从图像特征直接进展到文本。而DMN方法,在训练期间支持事实未被标记的情况下,该方法未能提供问答的强有力的结果,但通过结合动态参数的方法,效果得以证明。鉴于上述算法各有不足,本文将其优势互补,结合了基于动态参数记忆网络和高层概念的视觉问答算法,该算法首先对于自适应参数预测,采用单独的参数预测网络,其包括以问题为输入的门控循环单元(Gated Recurrent Unit,GRU)和产生一组候选权重作为其输出的全连接层。通过结合哈希技术构建CNN全连接动态参数层的参数预测网络,使用预定义的散列函数来选择由参数预测网络给出的候选权重,以确定动态参数层中的各个权重。然后借鉴DMN架构方法,将CNN中加入注意力机制,使用修改后的GRU加入记忆力机制,并替代RNN。构建出CNN-GRU的组合架构。最后,将高层概念融合到构建成功的CNN-GRU方法中。实验结果表明该方法在VQA方面取得了显着的进步。在VQA的几个基准数据集上实现了较好的结果。