基于图像描述和多层次注意力机制的视觉问答算法研究

来源 :陕西师范大学 | 被引量 : 0次 | 上传用户:zhouhai3032
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年以来,随着人们对深度学习的不断研究,计算机视觉与自然语言处理发展迅速,并且产生了很多研究方向,比如“图像描述”和“视觉问答”等新的任务。作为人类,我们可以识别一张图像中的人或物体,理解这些人或物体之间空间位置,预测它们的属性和他们之间的相互关系,并且还可以推断出给定周围环境的每个对象的目的,而视觉问答系统正是可以从一定程度上代替人们去做这些事。视觉问答是与计算机视觉(CV)和自然语言处理(NLP)均有紧密联系的新任务,其任务是将一张照片和与这张照片有关的问题作为视觉问答系统的输入,任务的输出为一个单词或多个单词的答案。本文综述了目前国内外对视觉问答的研究现状,并且分析了目前视觉问答算法中存在的问题,其一是大多数算法是基于注意力机制的,但大多数算法仅仅对图像的空间层面进行了关注,并且缺乏了对问题信息的关注。其二是目前的视觉问答任务以输出一个单词的答案为主要目标,在人机交互方面不够友好,我们认为单个词汇的输出对于视觉障碍者并不能够完整的理解图像与问题之间的联系。基于以上存在的问题,本文提出了基于图像描述和多层次注意力机制的视觉问答算法。本文的算法不仅能够有效的预测答案,而且还对图片和答案做一定的解释。其一,本文提出的多层次注意力模型能够很好的结合图像与问题信息,而且在图像的两个层面进行关注:空间注意和卷积通道注意。其二,在引入图像描述任务后,视觉问答任务变得更加的友好,输出的不仅仅是一个基于问题的答案,还有针对该问题的图像描述,除此之外以往的图像描述没有问题信息作为引导,单纯的靠图像信息获取图像描述,而我们的模型则是具有问题引导关注的图像描述,所以本文有效的结合了图像描述和视觉问答这两个任务。具体的说,我们的模型采用深度卷积神经网络与长短期记忆网络算法以及多层次注意力机制来生成具有语义引导的图片描述,接着我们将该描述和图像问题多个特征信息融合以获得答案并将图片描述输出。我们的模型在COCO-VQA与VQA两个公开数据集上与同期主流的算法进行了实验对比,实验结果表明,本文的算法模型比以往的模型能够更为精确地预测答案,并且能够输出与问题和图像均关系紧密的描述,增强用户对答案的理解。
其他文献
与传统的神经网络相比较,忆阻神经网络能建立更加接近人脑大小、结构的高度集成神经系统。从而,它可以有效地模拟人脑神经细胞的学习、记忆和判断等功能。忆阻神经网络具有记忆性、自适应性和高度并行处理能力。忆阻神经网络的同步控制普遍应用于模式识别、组合优化、保密通信、函数逼近等领域。在实际的同步控制系统中,有时候信号传输需要依赖于一般通信网络。比如,无线网络中的保密通信,机器人在恶劣环境下的协同合作以及多智
随着科技的发展,人类需要探索的地方越来越广,甚至延伸到人类自身难以到达的地方,对载运工具提出了更高的要求。足式步行车可以行走在崎岖的地面,帮助人类扩展探索范围,得到
在关于空间研究的理论中,顾大庆教授提出的空间组织策略具有简单清晰的操作方法和立足实验的研究精神,本文延续这一理论中从现代抽象绘画出发进行空间研究的视角,对空间组织
铁路轮渡港建设是综合运输体系建设的重要组成,如何科学合理地进行建港位置选择对实现海铁联运“最后一公里”有着举足轻重的作用。目前针对铁路轮渡港址选择方面的研究尚处
多主体系统的一致性现象和神经网络的同步现象都是重要而且特殊的现象.在多主体系统中,一群协作的主体为了实现共同目标需要在某个感兴趣的量上达成一致,这就是通常所说的一
折反射摄像机由于其具有视场大、结构简单和成本低等优势,被广泛应用于三维场景重建、视频监控和视觉导航等领域。本文主要研究了折反射摄像机的成像模型和误差评价两个方面
空间曲梁结构,因其流线的造型、良好的受力特性和对多种地形、地物的适应性,在土木与交通、机械工程、航空航天工程中都发挥着重要的作用。除了上述常见领域之外,近些年来具
本文研究了广义形式的线性参数变化(linear parameter-varying,LPV)系统的有关问题。这些问题主要在三个方面,分别是带有常数时滞的广义LPV系统的容许性分析问题、状态反馈镇
人体姿态识别一直以来是计算机视觉和人工智能领域中的研究热点,教室场景下的学习者姿态识别是将人体姿态识别应用在教育领域,具有非常重要的研究意义与应用价值。学习者姿态
分布式电驱动汽车的电机在车轮内实现集成提高了传动效率,配合四车轮均能进行再生制动的优点能够大大提高能量利用率,提高汽车续航里程。机械摩擦制动的可靠性是车辆制动安全