【摘 要】
:
随着深度学习与神经网络技术逐渐取得突破性进展,计算机视觉与自然语言处理在各自领域取得了显著的成功,其中以卷积神经网络和递归神经网络为代表,在图像识别,图像检测,图像分割,语音识别,语音翻译等相关任务中发挥了重要的作用。而视觉问题系统结合计算机视觉和自然语言处理等技术,实现复杂场景下的智能问答,促进人机交互等人工智能应用的发展,越来越受到研究者的关注。与传统问答系统只接收文字信息导致答案预测失准不同
论文部分内容阅读
随着深度学习与神经网络技术逐渐取得突破性进展,计算机视觉与自然语言处理在各自领域取得了显著的成功,其中以卷积神经网络和递归神经网络为代表,在图像识别,图像检测,图像分割,语音识别,语音翻译等相关任务中发挥了重要的作用。而视觉问题系统结合计算机视觉和自然语言处理等技术,实现复杂场景下的智能问答,促进人机交互等人工智能应用的发展,越来越受到研究者的关注。与传统问答系统只接收文字信息导致答案预测失准不同,视觉问答系统提供了一个场景级的视觉信息,除了理解自然语言形式的问题,还结合图像提供的内容来进行预测,从而获得精准的答案。近年来,在诸多采集自真实世界的精准权威数据集如DAQUAR,VQA,COCO-QA等的推动下,踊跃出现多种视觉问答算法,如基于传统机器学习的算法、基于数据库搜索的算法、基于注意力机制的算法等。这些算法没有完全解决视觉问答系统需要达到的高精度和实时性的要求,从而影响了视觉问答系统进一步的发展。因此本文针对性地提出一种综合视觉信息和文本信息的视觉问答系统,通过设计注意力机制融合图像与问题的关联特征、嵌入关系推理网络预测答案,从而显著提升问答精度。本文主要工作如下:(一)提出一种双分支的卷积神经网络架构来提取图像特征信息,且在多层次的理解图像内容前提下,采用注意力融合机制来对图像-问题联合特征进行有效提取,从而通过提升多模态特征表达能力来提升视觉问答系统的答案预测精度。首先对于输入数据中的图像数据,采用Resnet模型和Faster_RCNN模型作为两个图像特征提取分支分别对图像进行特征提取,得到全局图像特征和局部图像特征;然后,注意力融合机制同时考虑了两个视觉特征提取网络分支之间的相互关系,并由此获取多层次的图像-问题联合特征,该特征中包含与给定问题最相关的视觉特征信息;最后,将这两种注意力机制产生的注意力图进行非线性融合,从而产生图像-问题的联合特征。(二)将关系推理网络引入视觉问答系统中来提升系统对于多模态联合特征的关系推理能力,从而提升答案预测精度。传统视觉问答系统未能利用联合特征中的特征关系信息,导致在预测答案过程中使用遍历特征组合的方式,造成了大量的冗余信息。针对这一点,本文提出基于关系推理网络的视觉问答系统,将关系推理网络作为一种计算关系的特殊神经网络模块嵌入到视觉问答系统中,利用其对于特征之间关系的推理能力来进行特征组合的筛选,从而达到提升精度的目的。(三)将本文提出的模型分别在VQA和COCO-QA两个权威数据集下与现有模型做出了对比,并分别进行多模型对比实验和单模型消融性实验。对于多模型对比实验,在VQA数据集的标准测试分区和验证分区下,本模型的平均预测精度分别提升了1.5%~3.2%,在COCO-QA数据集的测试分区下,本模型的平均预测精度和标准WUPS提升了1.3%~2.6%和1.1%~2.4%;对于单模型消融性实验,在VQA数据集的标准测试分区下,根据消融性实验原理,本模型中创新子模块替换后的平均预测精度下降了1.7%~4.2%,其中替换了关系推理模块后的视觉问答模型相比于本模型精度下降了4.2%。实验结果证明,采用双分支的图像提取网络和注意力融合机制能够深入理解图像内容并产生高效的多模态联合特征信息,对于精度的提升起到一定的促进作用;使用关系推理网络嵌入不仅有效提高了模型预测的精度,而且参数数量保持平均以下水平,从而模型运行的速度不受显著影响。
其他文献
深部软岩巷道大变形破坏是一个重要的工程问题,软岩粘土矿物的水理性和吸附金属的性质是影响巷道大变形破坏的重要因素。本文采用第一性原理的计算方法,从微观角度上模拟了蒙
4G/5G网络以及移动设备的普及与发展促进了移动群智感知这一新颖感知模式的出现。移动群智感知以行人(工作者)手持的移动设备作为基本感知单元以实时的获取城市/郊区的环境信息。由于移动群智感知中任务感知要求(例如,感知时间、感知地点)的差异以及工作者的主观性,任务分配和激励机制是当前移动群智感知中的热点研究方向。然而目前大多数研究工作都是在单一感知模式下(机会式感知模式,参与式感知模式)进行的,并且很
大丽轮枝菌(Verticillium dahliae Kleb)是一种典型的土传性植物维管束病原真菌,可引起棉花黄萎病,鉴定并分析大丽轮枝菌致病相关基因,阐明其致病分子机理已成为当前研究热点
独体字是由笔画组成、不能或不宜再行拆分、可以构成合体字的汉字。由于独体字形体简单而且构字能力和构词能力强,所以它是汉字学习的基础内容,尤其是对于从未接触过汉字的外国学生来说。本文以《新汉语水平考试大纲》(1—3级)词汇大纲为范围,从汉语国际教育的角度对其中的独体字进行统计分析,结合相关数据提出独体字在汉字教学中的基础性地位,提出教学建议以及进行独体字教学设计,旨在促进独体字的教学,从而促进整个汉字
雷达自动目标识别(RATR)能够提供目标的类型、型号等信息,在军事领域具有重要的应用价值,受到雷达行业研究人员的广泛关注。雷达高分辨距离像(HRRP)具有易获取、存储量小等优点,是实现RATR的重要特征。在实际应用中,RATR系统的识别对象往往为非合作目标乃至敌对目标,但是这些目标样本难以获取,导致模板数据库往往是非完备的。此时若目标为库外目标,则将其判为库内任一类别均不合理。因此,在识别过程中应
《诗经》是中国古代诗歌的开端,是最早的一部诗歌总集。近年来《诗经》正以十几种语言在世界传播,在国内外掀起了一股诗经学和汉学的热潮。让世界更好地了解中国这个文明古国,典籍英译为中国文化走出去奠定了基础。本篇实践报告以林清扬博士的论文《阿瑟·韦利诗经翻译中的人类学、语言学及诗歌》中的第二章为源文本,在尤金·奈达的功能对等翻译理论指导下,译者将研究分三个层次进行。词汇层面,着重讨论了专业术语的翻译方法,
鹿皮作为一种传统中药,长期被人们食用,可治疗溃疡、妇女白带、肾虚滑精等各种疾病。鹿皮胶是用梅花鹿或马鹿的皮制得的,具有益气、补血、补肾等多种功能。其功效在《本草纲目》和《四川中药志》中均有记载。现代研究证实鹿皮胶因具有补血以及增强免疫力等功效而得到广泛应用。目前对鹿皮胶的研究也主要针对其补血、免疫调节和提高血清睾酮等功效方面,但对鹿皮胶的食用安全性尚无报道。此外,对鹿皮胶成分的研究主要集中在氨基酸
近年来,随着机器人领域的不断进步以及人工智能技术的快速发展,无人机逐步的应用到日常生活和工业生产的各个领域中,相关技术的研究也受到了学术界广泛的关注。无人机是一类特殊的自主机器人,搭载有特定传感器,其技术的基础和核心是在运动过程中,通过携带的传感器估计自身运动状态,同时感知并构建所处环境模型。随着同步定位与地图构建(Simultaneous localization and mapping,SLA
摇床是矿产行业主要的选矿设备之一,它被广泛用于选别各种稀有矿物。但是目前的选矿摇床存在无法实现矿物精准分离、实时调节不及时、矿物回收率低、耗费劳动力的缺点。因此针对这样的现状,本文进行了基于视觉的摇床自动接矿系统研究,重点研究摇床自动接矿系统设计中的难点问题,并提出可行的摇床自动接矿系统设计方案。首先,根据系统需求分析和自动接矿系统的应用场景,本文设计了基于视觉的摇床自动接矿系统的总体架构方案,将
本文以系统功能语言学相关理论为理论基础,使用并借鉴韩礼德和哈桑的衔接理论,将定性、定量分析相结合,从显性和隐性两方面,考察汉泰语篇衔接手段使用的异同。全文由四个章节组成:第一章,绪论。梳理前人对语篇衔接、汉泰语篇衔接对比及对外汉语语篇衔接偏误的相关研究,明确本文的研究意义、方法、步骤。第二章,汉泰语篇衔接手段异同考察。以两部现当代汉泰小说为主要语料,从显性和隐性两个角度考察汉泰语篇衔接手段的异同,