基于多种上下文信息的场景图生成方法研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:ahhshpl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
场景图生成任务(Scene Graph Generation)将图像中的物体看作节点,两个物体之间的关系视为边,通过物体建模及关系建模来生成图像中所有物体及其关系的结构化表示,即场景图。场景图表示的是图像中物体的交互关系,由形如?person,ride,horse?(“人骑马”)的关系三元组构成,不仅包含物体信息,也包含整个场景的详细描述。相对于目标检测任务(Object Detection)获取的物体信息,场景图包含的语义信息更加丰富,但与图像字幕任务(Image Classification)获取的抽象描述信息相比,它的语义层次更低,内容描述却更加完整。正因如此,场景图作为一种中层语义信息被广泛应用于目标检测、图像字幕、图像检索、文本生成图像和图像段落生成等计算机视觉任务中。针对场景图的生成问题,目前使用深度学习技术来解决的工作居多,主要涉及目标检测、关系谓词分类等子问题。大部分现有工作仅对不同关系三元组之间的上下文信息进行建模,而忽略了同一对物体的不同谓词特征之间的关联性。在本文第三章工作中,我们提出了两阶段模型———谓词特征关联网络(Predicate Feature Association Network),该方法能充分利用多种上下文信息。第一阶段,模型首先进行目标检测,然后提取物体级上下文信息与场景级上下文信息以提升物体分类性能;第二阶段,首先利用多模态特征对齐(Multi-modal Feature Alignment)获取图像区域及关系谓词的对齐上下文信息,然后结合物体级上下文信息输入到循环神经网络中对关系谓词建模,以获取谓词特征关联信息,最后利用注意力机制(Attention Mechanism)获取加权后的谓词特征关联信息,并进行关系谓词分类。本模型在公开数据集Visual Genome数据集上进行了大量实验,并在前K(K=20,50,100)个分数最高的预测关系上计算召回率,实验表明谓词特征关联网络提升了场景图生成任务的性能。在谓词特征关联网络基础之上,本文第四章还探究了以下两方面关于场景图生成的问题:首先是在获取物体级上下文信息阶段,针对视觉特征、类标签特征以及物体空间特征等三种类型特征进行融合的方法研究,具体地,本文探索了基于差异性计算的线性融合技术以及基于稠密多模态融合(Dense Multi-modal Fusion,DMF)技术对场景图生成性能的影响;其次,本文基于DMF的多层级特征融合思想设计了候选物体对筛选网络,该网络在进行关系谓词分类之前对候选物体对进行筛选,在测试阶段大大减少了无意义候选物体对的计算,充分利用了计算资源,并有效缓解了候选物体对关于图像中的物体个数呈平方级增加的问题。
其他文献
本文采用伏安法考察了药物-盐酸非那吡啶在功能化复合介孔膜修饰的水/1,6-二氯己烷界面上的电化学行为。研究结果表明:盐酸非那吡啶中的非那吡啶(Phenazopyridine,PAP)在酸性条件下可通过质子化形成非那吡啶阳离子(HPAP+)并在该界面上发生转移。根据循环伏安曲线的峰电流与扫速的关系以及Randles-Sev?ik方程,计算得到HPAP+在复合介孔膜内水相中的扩散系数为5.14×10-
学位
采用U形水槽试验的方法,研究在不同间距比情况下正“品”字与倒“品”字形三方柱的绕流现象。由于“品”字形三方柱在不同间距比情况下绕流机制较复杂,水槽边壁又存在一些影响,因此添加了近壁非淹没与淹没单方柱试验组。通过粒子图像测速(PIV)系统,测量了“品”字形三方柱附近的水流结构,得到了流场、紊动强度、雷诺应力、拟涡能、变形能等水流分布及变化特征,对试验结果分析得出如下结论:Ⅰ.近壁方柱绕流试验:(1)
作为从事司法鉴定工作的专业技术类公务员,法医类公务员在公安机关刑事案件侦破和司法案件事故责任认定中发挥着不可替代的作用。无论是转型期局部利益调整和冲突的频发、社
学位
情绪是每个人都会产生的生理和心理活动,情绪的变化对人们的工作效率、生活态度、决策判断等各方面都有着重要的影响。随着社会智能化水平的不断提高,人们希望人机交互产品能
多孔介质与我们的生活息息相关并且随处可见,例如土壤、砂石,木材等,亦或是生活中的面包、海绵、衣服、陶瓷等。多孔介质流动问题的研究对化工领域、改善土壤渗透率、航空材料的研发都有重要的意义。但是由于多孔介质内部的孔隙结构具有很强的随机性和各向异性,以此给多孔介质内部流动问题的研究带来了很大的困扰。本文尝试以多种模型对多孔介质内部的流动特性做出研究。首先,流动特性方面,笔者依据单球绕流圆球为模型推导了阻
Mg–10Gd–3Y–0.5Zr合金以其优良的时效强化性能及热稳定性,已成为最具工程应用前景的航空航天材料之一。而航空航天零部件在服役过程中常承受高温和交变循环载荷的共同作用,故合金的高温性能及疲劳性能是其重要的技术指标之一。本文以砂型低压铸造和金属型重力铸造Mg–10Gd–3Y–0.5Zr合金为主要研究对象,研究分析了砂型铸态、T4态、T6态以及金属型T6态Mg–10Gd–3Y–0.5Zr合金的
多智能体系统的一致性是复杂系统智能与协调合作控制领域中的重要问题,是复杂系统动力学与控制领域前沿研究方向之一,在移动车辆的协调合作、网络探测器的设计、无人机编队与控制等实际工程中有广泛应用。本文研究了无速度信号输入的二阶多智能体系统一致性问题。主要内容如下:一、在无向网络中,以智能体相对位移信息的非线性函数为有效信息,基于辅助系统给出一种非线协议,使二阶多智能体系统中实现一致;对引导—追随者多智能
随着信息时代科技的迅猛发展,越来越多的实时数据被观测收集。这类数据由于具有高维性和连续性的特点而被称为函数型数据。函数型数据广泛地存在于社会的各个领域,函数型数据的分析也成为越来越热的统计分析问题。而另一类空间数据,考虑了空间相依性效应,对空间维度下的数据做分析,也是学者们热门研究的问题。因此,考虑函数型数据下的空间模型的研究估计,有着很强的社会适应性和必要性。本文着重考虑了函数型空间自回归模型的