论文部分内容阅读
近几年以来,随着人们对深度学习的不断研究,计算机视觉与自然语言处理发展迅速,并且产生了很多研究方向,比如“图像描述”和“视觉问答”等新的任务。作为人类,我们可以识别一张图像中的人或物体,理解这些人或物体之间空间位置,预测它们的属性和他们之间的相互关系,并且还可以推断出给定周围环境的每个对象的目的,而视觉问答系统正是可以从一定程度上代替人们去做这些事。视觉问答是与计算机视觉(CV)和自然语言处理(NLP)均有紧密联系的新任务,其任务是将一张照片和与这张照片有关的问题作为视觉问答系统的输入,任务的输出为一个单词或多个单词的答案。本文综述了目前国内外对视觉问答的研究现状,并且分析了目前视觉问答算法中存在的问题,其一是大多数算法是基于注意力机制的,但大多数算法仅仅对图像的空间层面进行了关注,并且缺乏了对问题信息的关注。其二是目前的视觉问答任务以输出一个单词的答案为主要目标,在人机交互方面不够友好,我们认为单个词汇的输出对于视觉障碍者并不能够完整的理解图像与问题之间的联系。基于以上存在的问题,本文提出了基于图像描述和多层次注意力机制的视觉问答算法。本文的算法不仅能够有效的预测答案,而且还对图片和答案做一定的解释。其一,本文提出的多层次注意力模型能够很好的结合图像与问题信息,而且在图像的两个层面进行关注:空间注意和卷积通道注意。其二,在引入图像描述任务后,视觉问答任务变得更加的友好,输出的不仅仅是一个基于问题的答案,还有针对该问题的图像描述,除此之外以往的图像描述没有问题信息作为引导,单纯的靠图像信息获取图像描述,而我们的模型则是具有问题引导关注的图像描述,所以本文有效的结合了图像描述和视觉问答这两个任务。具体的说,我们的模型采用深度卷积神经网络与长短期记忆网络算法以及多层次注意力机制来生成具有语义引导的图片描述,接着我们将该描述和图像问题多个特征信息融合以获得答案并将图片描述输出。我们的模型在COCO-VQA与VQA两个公开数据集上与同期主流的算法进行了实验对比,实验结果表明,本文的算法模型比以往的模型能够更为精确地预测答案,并且能够输出与问题和图像均关系紧密的描述,增强用户对答案的理解。