基于关系建模的视觉问答研究

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户：hyhf_lwh

【摘要】

：

【作者】

：

吴晨飞

【机构】

：

北京邮电大学

【出处】

：

北京邮电大学

【发表日期】

：

2020年01期

【关键词】

：

视觉问答跨模态推断深度学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网技术的飞速发展,多媒体数据呈爆炸式增长。在这些多媒体数据中,单一媒体的数据往往不是独立存在的,而是天然共生、并具有语义关联的,因此被称作“跨媒体”数据。探索跨媒体数据的语义关联,提升计算机对跨媒体数据的语义理解和推理水平、从而提高人们对跨媒体数据的管理和运用能力,是一项具有重要应用和研究价值的挑战。视觉问答就是一个典型的跨媒体分析推理任务。它将视觉和语言两种典型的媒体形式作为任务输入,并将易于评测的答案作为任务输出。因为视觉问答任务需要机器同时表示、理解视觉和语言,并且需要结合两者进行推理,故而也被称作“视觉图灵机”和“人工智能完备的”（AI-complete）。本文在深入研究视觉问答任务难点、广泛分析已有研究工作的基础上开展工作,主要的研究成果包括:提出了一种基于特征关系的差分融合视觉问答模型,通过将视觉特征和语言特征都映射到差分模态,更好的表示跨模态信息。首先提出了一种差分网络（Differential Networks,DN）,利用差分网络将不同模态的特征映射至差分模态;其次,利用差分融合（Differential Fusion）建模差分模态间的特征交互。在公开数据集上的实验表明差分融合性能优于已有的线性和双线性融合方法,能够更好的拉近不同模态的距离。提出了一种基于实体关系的比较注意力视觉问答模型,通过实体之间的两两比较,更好的筛选跨媒体信息。首先提出实体差分注意力（Object Difference Attention,ODA）,通过实体间的差分运算,得出实体间的两两差异,然后利用这些差异信息去选择对回答问题有用的视觉实体;其次,将实体差分注意力扩展为更通用的比较注意力（Comparable Attention,CA）,并提出了四种比较注意力核。在公开数据集上的实验表明比较注意力性能优于已有的非比较注意力方法,并且不同的比较核擅长回答不同类型的问题。提出了一种基于高阶关系的链式推理视觉问答模型,通过迭代的产生新实体和新关系,以更好的决策跨媒体信息。模型包含关系推理（Relational Reasoning,RR）模块以计算实体之间的复合关系、实体精炼（Object Refining,OR）模块将复合的关系精炼为新的复合实体;基于以上两个模块,构建了链式推理（Chain of Reasoning,CoR）结构,通过迭代的关系推理和实体精炼,逐步推理得出问题的答案。在公开数据集上的实验表明链式结构性能优于已有的并联和串联结构,并且推理的中间结果具备可解释性。提出了一种基于样本关系的知识记忆视觉问答模型,通过寻找相关样本,组成上下文知识记忆,以更好的丰富跨模态信息。首先提出知识记忆（Knowledge Memory,KM）模块,训练了一个Bert分类器,判断问答的答案是否暗含在另一个问题中。然后将所有可能暗含答案的问题组成记忆段落,并将其应用到一个包含多层面的表示和交叉头推断的动态推理机（Dynamic Reasoning Machine,DREAM）模型中。DREAM目前是GQA Challenge的第一名,在binary类问题和open类问题上全部取得了最佳性能,分别为80.54%和68.60%。实现了一个视觉问答研究演示系统。该系统以研究为目的,能够比较在不同图像、不同问题、不同模型下,输出答案和解释的动态变化,以帮助研究者更好的分析模型的表现。

其他文献

跨媒体数据语义学习与旅游场景识别和监测研究

随着社会生活水平的提高,旅游活动变得越来越普遍,伴随着旅游活动的普遍性和旅游人数的增加,旅游中的突发事件也越来越多,旅游活动中的突发事件难以预测,对旅游场景识别和监测是提高对旅游突发事件应对水平的有效手段。如何针对这些跨媒体数据进行语义学习和实现旅游场景识别和监测是一个严峻挑战。针对旅游场景识别,一方面要提高识别的准确率,另一方面要对场景的语义进行理解,最终实现场景识别和旅游场景监测。本文完成的主

学位

跨媒体数据密度场属性语义学习旅游场景识别场景监测

实时流媒体分发网络研究与实现

随着5G时代的到来,高速高带宽的通信能力在推动着移动互联网领域发展,人们对低延迟、高带宽的流媒体和实时互动应用的需求越发增长。在线教育、娱乐直播、视频会议的云上生活模式已经深入人心,成为了新时代人们的标配。但是,传统的内容分发网络及基于TCP的传输技术还远远不能满足人类对于在互联网上实时音视频互动的需要,实时流媒体分发技术的发展迫在眉睫,亟待新的方法解决实时流媒体在网络传输中的质量问题。本课题研究

学位

WebRTC实时音视频通信内容分发网络拥塞控制

地方政府投融资平台公司市场化转型研究

随着我国地方政府社会化建设进程飞速发展,经济建设牵引着我国各行各业转型,投融资平台公司作为承担基础设施建设等公益性项目主体的国有企业,在经济进程中扮演着重要的角色,通过为公共事业运营筹集资金,在促进当地经济发展发挥了积极的作用.在完成使命的过程中,也对地方政府投融资平台公司市场化建设带来了新的压力,向市场化转型势在必行,为深化投融资体制改革,促进平台公司转型发展,提高公司可持续融资能力.本文对地方政府隐性债务的处置、推进平台公司市场化转型与投融资创新进行了研究.

期刊

地方政府投融资平台市场化转型

基于MEC的异构车联网用户接入策略的研究

多接入边缘计算（Multi-access Edge Computing,MEC）是伴随 5G而来的一项技术,MEC通过将资源下沉到网络边缘,极大的降低了时延、缓解了终端计算压力,在各领域得到了广泛应用。随着MEC服务器的应用部署,其在车联网领域面临的问题及挑战也受到了越来越多关注,如用户关联问题、移动管理问题、资源分配问题等。无人机（Unmanned Aerial Vehicle,UAV）作为一种

学位

MECUAV车联网马尔可夫过程

基于关系建模的视觉问答研究

其他学术论文