基于动态参数记忆网络和高层概念的视觉问答

来源 :辽宁科技大学 | 被引量 : 1次 | 上传用户:benxiaohai741
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉问答(Visual Question Answering,VQA)是计算机视觉(Computer Vision,CV)和自然语言处理(Nature Language Processing,NLP)领域的前沿交叉热点任务。当前有几种效果较好的主流方法。通过组合卷积神经网络(Convolution Neural Network,CNN)和循环神经网络(Recurrent Neural Network,RNN),来实现视觉问答。通过在神经网络架构中加入记忆力(Memory)和注意力(Attention)机制来提高视觉问答系统的某系推理能力,动态记忆网络(Dynamic memory network,DMN)就是其典型代表,并在各种VQA任务中评分较高。在CNN中加入动态参数,且动态参数的权重基于问题自适应地确定的方法,也在各项任务重取得了好的效果。然而,CNN-RNN组合的方法,没有明确表示高层语义概念,而是试图从图像特征直接进展到文本。而DMN方法,在训练期间支持事实未被标记的情况下,该方法未能提供问答的强有力的结果,但通过结合动态参数的方法,效果得以证明。鉴于上述算法各有不足,本文将其优势互补,结合了基于动态参数记忆网络和高层概念的视觉问答算法,该算法首先对于自适应参数预测,采用单独的参数预测网络,其包括以问题为输入的门控循环单元(Gated Recurrent Unit,GRU)和产生一组候选权重作为其输出的全连接层。通过结合哈希技术构建CNN全连接动态参数层的参数预测网络,使用预定义的散列函数来选择由参数预测网络给出的候选权重,以确定动态参数层中的各个权重。然后借鉴DMN架构方法,将CNN中加入注意力机制,使用修改后的GRU加入记忆力机制,并替代RNN。构建出CNN-GRU的组合架构。最后,将高层概念融合到构建成功的CNN-GRU方法中。实验结果表明该方法在VQA方面取得了显着的进步。在VQA的几个基准数据集上实现了较好的结果。
其他文献
这些年以来,因人们的乱砍滥伐、工业废气/汽车尾气的大量排放等原因而越来越严重的温室效应、更大的臭氧层空洞,时而发生的矿难事故,家居装修及食品安全检验不合格等因素严重
伴随着我国市场经济的迅猛发展,休闲旅游成为人民日常生活的普遍选择之一。近年来,泉州市的休闲农业的发展前景迎来春天,休闲农业不单对于泉州农村地区在经济方面起到振兴的
基于模型诊断问题是NP难度的问题,在人工智能领域内有着十分重要的地位。同时,在工程医学、经济、航天等领域内,基于模型诊断问题也有着重要的应用。在早期提出基于模型诊断
空气压膜效应触觉反馈技术能够使人在普通触摸屏上感受到被显示物体的形状、纹理以及柔软性,实现自然逼真的触觉再现,一直是人机交互领域的研究热点之一,在多媒体终端实现触
云计算作为新型计算模式,其强调资源租用、应用托管等。云存储是云计算提供的一种常见服务。在云存储中,用户通过租用云端的存储资源来保存自己的数据,之后就可以随时随地通
随着生活需求趋于多元,学习成本不断提高,语言学习者希望通过一种高效的学习方式,以便在较短的时间内掌握一门语言。认知语言学理论表明“人是通过认知和理解才学会并运用语
近年来,测序技术高速发展推动了基因序列的各项研究。高通量测序具有通量高、时间短的优点,但是输出的序列长度较短,无法为科学家提供足够长的序列用于后续分析研究,因此需要
全球制造业生产网络根据每个国家资源禀赋、生产力水平、经济规模等的不同而呈现出复杂多样的形态。一个国家的制造业在全球制造业网络中的地位是由其空间结构来决定。大湄公
随着市场环境的瞬息万变和科学技术的迅猛发展,企业之间的竞争日趋激烈。为了获得更多的竞争优势,企业越来越重视技术创新,技术创新是企业可持续发展的必要条件。然而,企业技
机电系统在生产和生活中应用广泛,在发展过程中具有结构复杂化,规模扩大化,功能多元化的特点,所以发生故障的可能性也会相应的增加。一旦机电系统发生故障而没有及时处理,会