基于场景理解的视觉关系生成研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:hujie789
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机视觉作为新一代人工智能的重要领域,它的蓬勃发展会对国计民生产生重大的积极作用。计算机视觉领域的核心要务是效仿人类视觉系统让计算机理解数字图像或视频中的视觉内容。当下计算机视觉领域中一些视觉认知任务已经取得了长足的进步,诸如图像识别和实例检测等任务。然而孤立地识别和检测实例并不能充分地理解图像中的场景内容,实例与实例之间丰富的关系对理解图像的场景内容也至关重要。因此本文关注于如何探索视觉信号中的关系信息,并以结构化的方式加以表示。具体而言,本文使用了图(Graph)结构来表示关系信息,实施的具体任务为场景图生成(Scene Graph Generation,SGG),以实现对视觉场景的完备且准确的理解。场景图由节点和边构成,其中节点代表了图像中的实例,具体包含实例的位置和类别;边连接了主体节点与客体节点,代表从主体到客体的视觉关系,具体由关系谓词表示。该图结构也可以分解为一系列从主体到客体的关系三元组,即<主体,谓词,客体>,如<人,骑,马>。由于当下实例检测模型已经能有效检测场景图中的节点,因此本文关注于如何更好地生成场景图中的边,即关系谓词。综上,本文探索了基于场景理解的视觉关系生成的研究。由于当下基于深度卷积神经网络的图像识别和检测网络已经取得了优良的效果,从这些网络中提取的深度特征可以充分地表征图像中的实例信息。因此提取关系信息的难点在于如何充分利用并补充深度卷积特征,使模型能在各种数据环境下归纳出准确且具体的关系信息。针对该研究目标,本文提炼了视觉关系生成中四个具体的关键问题,即,局部特征上下文缺失、少样本数据知识不足、长尾数据信息量匮乏及相关谓词语义混淆,提出并设计了关系正则化网络、多重结构化知识、平衡性谓词学习策略及语义去偏模块来分别处理上述问题。具体总结如下:(1)如何从局部卷积特征中提炼出有效的全局及关系上下文信息以辅助关系的预测?本文提出了关系正则化网络来捕获上下文信息以辅助场景图生成任务。由于关系的预测不是孤立的,它们极其依赖于视觉的上下文信息,即周围环境信息。而提取于卷积网络的局部特征并不具有此种信息。针对此问题,首先归纳了两种上下文,即关系型上下文和全局上下文。之后,利用图卷积神经网络以及双向长短期记忆网络从实例特征中提炼出这两种上下文信息以辅助场景图生成任务。(2)如何在少量样本的条件下仍能良好地预测关系?本文提出了多重结构化知识网络来弥补少量样本下场景图生成中知识不足的问题。人类能在少量样本的条件下学习到丰富的关系信息,然而当下场景图模型都依赖于大量样本进行学习。为了模拟人类的学习方式,本文首先提出了一个单样本场景图生成任务。之后,为了弥补单样本场景图任务中知识不足的问题,本文从视觉基因组数据集中定义了关系型知识,并从概念网络数据集中定义了常识型知识。为了从多重知识中提取知识特征,本文将这两种知识信息组织为图结构,然后利用图卷积神经网络对多重结构化知识进行编码生成知识特征以辅助单样本场景图生成。(3)如何提升在长尾数据中生成关系的信息量?本文设计了平衡性谓词学习策略来增加生成场景图的信息量。当下场景图模型受困于信息量贫瘠的一般性关系谓词,对具有丰富信息量的谓词预测能力不足。这不仅破坏了当下模型的整体性能同时也阻碍了场景图在下游任务中的应用。本文认为该问题主要是由于训练空间中谓词样本的长尾分布造成的。基于此,本文提出了基于平衡性谓词学习的场景图生成框架,其使用了随机欠采样策略以及歧义消除策略以提升现有场景图模型生成结果的信息量。(4)如何缓解相关性关系谓词的语义混淆问题?本文提出了语义去偏模块以纠正预测结果并使其更加明确具体。由于关系谓词普遍具有关联性,模型很容易混淆有语义重叠的关系谓词。基于此,本文构建了谓词的关系矩阵,并在训练和推理时使用该矩阵以缓解语义混淆问题。具体而言,本文分别使用了基线模型的混淆矩阵和由主客体重叠度构成的二部图来构建谓词的语义关系。之后,将这种谓词关系施加于模型生成的谓词分布以缓解生成场景图语义含糊的问题。最后,本文归纳并总结了上述研究内容,并展望了可能会对视觉关系任务的发展产生重要影响的潜在研究点。
其他文献
截瘫外骨骼机器人具有医疗器械属性,对安全性要求极高,因此截瘫助行外骨骼机器人安全性研究备受关注,其中涉及的关键问题为人机系统平衡评估和平衡控制。本文针对人机系统安全问题,提出平衡评估指标,构建平衡控制策略,建立摔倒保护策略,以提高人机系统整体安全性,主要贡献如下:针对传统指标无法准确评估系统动态平衡问题,提出增强稳定锥指标,它融合系统质心位置、速度、加速度及接触时间等信息,可计算系统失衡的紧急程度
合作是社会稳定的润滑剂和经济发展的助推器,然而合作却是个体以牺牲自身利益而使他人获益的利他性行为。特别地,达尔文认为:谋求自身利益最大化是自私个体采取行动的直接驱动力,这导致合作并非自发地涌现、维持和传播。因此,揭示和探索合作在自然和社会中演化的机制和机理,成为学术界关注的热点问题之一。尤其,在大数据和机器学习背景下,研究合作演化的机制对于探索群体智能涌现具有基础性和支撑的作用。迄今为止,演化博弈
由于传感与通讯技术的飞速进展,信息可以利用共享的数字网络或者无线信道实现传送。具备这些架构的控制系统通称为网络化控制系统。与传统控制系统相比,网络化控制系统在以下方面具有显著优势:成本低、灵活度高、易重新配置、可靠性强、适应性强、对故障的鲁棒性强。从网络化控制系统的定义可知其最显著的特征就是控制器和系统之间通过共享的通信网络进行信息交换,因此网络中一些与通信相关的问题或许会导致系统的性能降低。这些
传感器是信息获取的关键部件,随着柔性可穿戴电子产品的市场需求快速增长,亟待发展不同检测功能的柔性传感器。近年来纸张材料因其柔性、低成本、亲水、可再生、可降解、绿色环保等特性,在柔性传感器领域展现出广阔的应用前景;但如何将纸张材料、电极材料与敏感功能材料有机融合,发展不同检测功能的柔性纸基传感器仍面临诸多挑战。针对这一现状,本论文围绕普通的打印纸发展了一系列包括湿度、压力和弯曲应变检测的多功能柔性纸
近年来,极端气候事件频发,对人类健康、社会经济以及生态系统产生了巨大的影响。然而,极端气候事件的动力学机制极为复杂,与之相关的研究尚不成熟。由于极端气候事件的时间尺度大多介于次季节到年际尺度之间,以往研究通常会从年际尺度的角度出发,重点关注热带太平洋海温信号(如ENSO,El Ni(?)o-Southern Oscillation)在其中的作用。虽然热带海温异常信号为极端气候事件的发生提供了有利的
现代无线通信是我国智能化社会建设的重要引擎。随着智慧医疗、智能制造和智能交通等新型智能化应用的不断涌现,无线通信亟需借助多种通信系统以支撑多样化业务并提升核心技术指标,其发展进而呈现出多种通信系统共存的态势。在频谱与能量等通信资源受限的情况下,多种通信系统需要进一步利用资源共享来提高资源利用效率。因此,如何通过资源共享实现各种系统间的高效共存已成为无线通信研究的重点。共生无线通信(Symbioti
基于有机电致发光器件(OLED:Organic Light-Emitting Device)的显示技术由于具有柔性超薄、主动发光、色彩逼真等特点在当今与未来显示技术领域占有举足轻重的地位。国际电信联盟(ITU:International Telecommunication Union)推出了显示器的B.T.2020(Broadcast Television 2020)色纯度和色域标准,要求能够完美
5G通讯时代背景下,电子元器件市场需求的迅速扩张使得能够用作其关键材料的微波介质陶瓷的开发应用迎来了新的机遇。从持续探索新型微波介质陶瓷体系、丰富各个介电常数范围的材料到逐渐剖析影响微波介电性能的因素,已经涌现了大量关于介电损耗机理的研究,但微波介质陶瓷种类繁多、结构不同、性能迥异的特点,使得如何快、准、精地改善微波介质陶瓷材料的性能成为该领域难以突破的瓶颈。影响微波介电性能的外部因素可通过实验工
随着人口的快速增长和工业污染的加剧,淡水资源短缺已逐步成为全球亟待解决的问题之一。近年出现的光热海水淡化技术,因其具有光热转换效率高、环境友好、无污染等优点而被广泛研究。光热材料、高效水蒸发结构研究是本领域研究的核心;此外,如何提升高盐海水中的耐盐性能和实现多功能集成,也是近期研究的热点。针对上述问题,本论文在对碳纳米管网络微观结构调控和表面可控修饰的基础上,提出了通过亲水疏水碳纳米管网络来构筑温
锂金属电池因其极低的氧化还原电位、超高的理论能量密度而成为当前国际研究前沿与热点。然而,锂枝晶不可控生长导致的循环稳定性差、安全性低等问题严重制约了锂金属电池商业化进程。针对锂金属电池的这些问题,本论文以低成本过渡族金属氮化物为研究对象,分别在隔膜表面、锂金属负极表面及三维骨架上设计、构筑亲锂的金属氮化物纳米功能材料,系统研究其对锂枝晶生长与电化学性能的影响规律,理论计算结合实验表征分析揭示了其电