论文部分内容阅读
随着互联网技术的飞速发展,多媒体数据呈爆炸式增长。在这些多媒体数据中,单一媒体的数据往往不是独立存在的,而是天然共生、并具有语义关联的,因此被称作“跨媒体”数据。探索跨媒体数据的语义关联,提升计算机对跨媒体数据的语义理解和推理水平、从而提高人们对跨媒体数据的管理和运用能力,是一项具有重要应用和研究价值的挑战。视觉问答就是一个典型的跨媒体分析推理任务。它将视觉和语言两种典型的媒体形式作为任务输入,并将易于评测的答案作为任务输出。因为视觉问答任务需要机器同时表示、理解视觉和语言,并且需要结合两者进行推理,故而也被称作“视觉图灵机”和“人工智能完备的”(AI-complete)。本文在深入研究视觉问答任务难点、广泛分析已有研究工作的基础上开展工作,主要的研究成果包括:提出了一种基于特征关系的差分融合视觉问答模型,通过将视觉特征和语言特征都映射到差分模态,更好的表示跨模态信息。首先提出了一种差分网络(Differential Networks,DN),利用差分网络将不同模态的特征映射至差分模态;其次,利用差分融合(Differential Fusion)建模差分模态间的特征交互。在公开数据集上的实验表明差分融合性能优于已有的线性和双线性融合方法,能够更好的拉近不同模态的距离。提出了一种基于实体关系的比较注意力视觉问答模型,通过实体之间的两两比较,更好的筛选跨媒体信息。首先提出实体差分注意力(Object Difference Attention,ODA),通过实体间的差分运算,得出实体间的两两差异,然后利用这些差异信息去选择对回答问题有用的视觉实体;其次,将实体差分注意力扩展为更通用的比较注意力(Comparable Attention,CA),并提出了四种比较注意力核。在公开数据集上的实验表明比较注意力性能优于已有的非比较注意力方法,并且不同的比较核擅长回答不同类型的问题。提出了一种基于高阶关系的链式推理视觉问答模型,通过迭代的产生新实体和新关系,以更好的决策跨媒体信息。模型包含关系推理(Relational Reasoning,RR)模块以计算实体之间的复合关系、实体精炼(Object Refining,OR)模块将复合的关系精炼为新的复合实体;基于以上两个模块,构建了链式推理(Chain of Reasoning,CoR)结构,通过迭代的关系推理和实体精炼,逐步推理得出问题的答案。在公开数据集上的实验表明链式结构性能优于已有的并联和串联结构,并且推理的中间结果具备可解释性。提出了一种基于样本关系的知识记忆视觉问答模型,通过寻找相关样本,组成上下文知识记忆,以更好的丰富跨模态信息。首先提出知识记忆(Knowledge Memory,KM)模块,训练了一个Bert分类器,判断问答的答案是否暗含在另一个问题中。然后将所有可能暗含答案的问题组成记忆段落,并将其应用到一个包含多层面的表示和交叉头推断的动态推理机(Dynamic Reasoning Machine,DREAM)模型中。DREAM目前是GQA Challenge的第一名,在binary类问题和open类问题上全部取得了最佳性能,分别为80.54%和68.60%。实现了一个视觉问答研究演示系统。该系统以研究为目的,能够比较在不同图像、不同问题、不同模型下,输出答案和解释的动态变化,以帮助研究者更好的分析模型的表现。