【摘 要】
:
近年来,随着计算机视觉和自然语言处理技术的高速发展,视觉问答(Visual Question Answering,VQA)在仿生机器人、智能教育和视觉障碍辅助等领域发挥着至关重要的角色。作为人工智能领域中典型的多模态任务,视觉问答旨在将视觉、语言和高级推理结合起来,自动回答与图像相关的语言问题。VQA任务是对机器智能的测试,也是通用人工智能的基准,具有巨大的应用价值和前景。本文主要工作如下:(1)
论文部分内容阅读
近年来,随着计算机视觉和自然语言处理技术的高速发展,视觉问答(Visual Question Answering,VQA)在仿生机器人、智能教育和视觉障碍辅助等领域发挥着至关重要的角色。作为人工智能领域中典型的多模态任务,视觉问答旨在将视觉、语言和高级推理结合起来,自动回答与图像相关的语言问题。VQA任务是对机器智能的测试,也是通用人工智能的基准,具有巨大的应用价值和前景。本文主要工作如下:(1)传统VQA模型中忽略双模态下语义信息的动态关系和不同视觉区域间丰富空间结构。为此,提出一种面向视觉问答的多模块协同注意模型(Muti-Module Co-Attention Network,MMCAN),对视觉场景中对象间关系的动态交互和文本内容的上下文表示进行充分理解。首先,通过图注意力机制建模不同类型对象间关系,以学习问题的自适应关系表示;其次,将问题特征和带关系属性的视觉关系通过协同注意编码,加强词嵌入与对应图像区域间的相关依赖性;最后,通过注意力增强模块来提升模型的拟合能力。MMCAN算法使用开放数据集VQA2.0和VQA-CPv2进行实验:VQA2.0测试子集test-dev和test-standard上,关于“总体”、“是/否”、“计数”和“其它”四类问题的准确率分别为68.47%、84.93%、49.57%、58.68%和68.85%、85.28%、49.76%、58.84%;VQA-CPv2上,四类问题的准确率分别为40.36%、42.42%、12.97%和46.67%。实验表明,提出模型在各类问题上的精确度明显优于DA-NTN、Re GAT和ODA-GCN等对比方法,可促进视觉问答准确率的提升。(2)通过进一步分析图像的复杂场景,为捕捉更深层次的关系语义与加强网络的可解释性,提出一种显式融合场景语义与空间关系的场景关系模型(Scenario Relationship Network,SRN),利用视觉场景间关系及其属性来辅助视觉问答推理。首先,根据图像中检测到的视觉对象关系来构建场景图网络;其次,分别通过自适应问题的图注意力机制编码预定义的场景语义关系和空间对象关系,以学习先验知识下的多模特征表示;最后,将两种关系模型进行线性融合来推理问题答案。SRN算法在数据集VQA2.0进行实验:对于测试子集test-dev,“总体”、“是/否”、“计数”和“其它”四类问题的准确率分别为69.44%、85.69%、49.51%、58.73%;对于test-standard,四类问题的准确率分别为69.92%、86.11%、50.14%、59.57%。结果表明,场景关系模型能在问题引导下进行视觉关系解析,这对结构复杂的自然语言问题更为有效。
其他文献
<正>11月下旬,知道创宇基于在网络空间测绘领域的多年积累与经验总结,推出《网络空间测绘知识图谱2021版》(以下简称“图谱”),旨在让网络安全行业的从业者见微知著,把握全局。知道创宇自2010年就开启了自己的网络空间测绘之路,至今在网络空间测绘行业已经深耕十余年,在数据积累、技术能力和产品体系方面都具备了深厚的积累与实践经验。2013年,知道创宇正式发布“ZoomEye”网络空间搜索引擎,目前已
<正>据艾瑞咨询最新研究数据显示,2021年中国物流保管费用达到5.6万亿元,同比增长8.8%,占物流行业总费用规模的33.5%,目前物流地产领域投资规模整体呈上升趋势,但涨幅逐降。“经过多年的发展,一方面,未来政府在一些核心城市对于物流用地供应量会越来越少。另一方面,经过一定时间的积累,物流地产的存量已经达到一定的量级。”
<正>9月24日,世邦魏理仕发布《焕新万象|商业地产的七大变化》专题报告(以下简称"报告")。报告显示,疫情牵动了一系列的商业和社会运转的改变。其中,近期,物流地产被47%的受访投资者选为最青睐的投资标的,在2016年起的历年调查中首次排名第一,标志着投资者在策略方面的一次重要转变。与此同时,物流仓储的资产价格持续上涨,
在现代营养学和功能性食品学的理论基础上,利用生物技术及信息数字化技术建立了一种更加精准化、柔性化、整体化、数字化的功能性食品研发新体系——柔性精准营养干预系统(Flexible Precise Nutrition Intervention System,FPNIS),并通过FPNIS的搭建,解决了目前常见的两种以传统复方中药材为主或以简单成分膳食补充剂为主的功能性食品研发模式的不足,同时对该探索新
高职院校是服务非遗传承创新和乡村振兴的重要力量,且对其发展具有重要意义。分析了高职院校服务湖湘传统手工技艺类非遗传承创新和乡村振兴实践的难题与解决路径,并以湖南工艺美术职业学院为例阐述了高职院校从“人才培养、文创设计、成果转化、宣传推广”四个方面服务非遗传承创新与乡村振兴的成效。
为了了解中国非物质文化遗产保护美术类的研究现状,梳理该研究领域的发展脉络,通过运用可视化分析软件CiteSpace,对知网(CNKI)收录的2002-2021年主题同时含“美术”“非物质文化遗产”的相关文献进行可视化分析,采用共引分析、聚类分析、共词分析等方法对该领域的演化进程、研究主题、研究热点与前沿进行分析。研究发现,非物质文化遗产研究传统美术类在中国的发展历程可分为3个阶段,即萌芽阶段、探索
网络靶场可以通过对现实世界中的网络安全事件再现来提升网络攻防演练的有效性,但是目前网络靶场中靶标的开发工作主要依赖于经验丰富的网络安全研究人员投入大量时间去完成,使得靶标构建过程中试错和排错成本进一步提升。在对手工构建靶标过程进行分析总结后,提出一种靶标标准化构建方法,基于开发运维一体化思想设计了靶标自动化构建流水线,将靶标构建流程分解为多个子流程,通过对各个子流程进行自动化实现达到靶标自动化构建
新时代背景下,传统工艺美术需要传承与创新,从而适应现代社会的需求,紧跟时代潮流。非遗工艺美术源于民众的生活,是当代工艺美术传承史上最有价值的艺术形式。非遗工艺美术的传承是以造型、审美和功能的形式展现的,其具体的形式和内容彰显了民间工艺的特点与活力,为社会环境和生活形态的变化提供了永不衰竭的创造精神。要创新思维,突破“惯例”和桎梏,在传统题材中融入现代风格,让传统工艺美术焕发现代美感。