视觉问答的关系推理方法的研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:dusun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉问答(Visual Question answer,VQA)的任务是根据给定图片和关于图片的自然语言问题,机器自动推理并输出答案。视觉问答是一项涉及到图像理解和语言处理两大研究领域的具有挑战性任务。视觉问答模型比较常用的是利用卷积神经网络(CNN)提取图像特征和循环神经网络(RNN)提问题文本特征,然后把这两特征映射到同一向量空间以预测答案。在视觉问答模型中主要需要三个相关技术:图像理解、问题文本理解和基于知识的推理。近年来,视觉问答引起许多研究人员的极大兴趣并有了很大的发展,目前现有的视觉问答模型大多数是靠数据驱动的,通过较大的训练数据集来拟合模型以达到较高的准确率,但模型并不能真正理解图像的内容信息,并且有些问题需要常识推理。为了在视觉问答任务中获得更好的准确率,研究工作者往往是采用深度神经网络构建视觉问答模型,并且也取得很好的效果,但这会导致模型的不透明和推理过程不可解析。我们认为更丰富的文本信息可以提高答案预测的准确率,并且图像描述能够帮助模型理解图像和增加可解析性。为了提取更多的图像的内容信息,我们采用描述生成的方法提取图像的内容文本信息,但提取的描述文本信息并不能直接用作逻辑推理,所以本章提出了一种基于深度搜索遍历的关系提取方法(DeepRel),将描述的文本信息转换成关系三元组的结构化信息。实验表明,该方法在图像描述文本数据集的关系提取优于ReVerb和OllIE。在VQA数据集中,DeepRel在验证集和测试集的准确率比ReVerb和OllIE高,DeepRel能够处理连词问题和构建多种关系有助于模型的关系推理。目前现有的视觉问答模型大多数是靠数据驱动的,通过较大的训练数据集来拟合模型以达到较高的准确率,但这会导致模型的不透明、推理过程不可解析和有些问题需要常识推理。面对这一问题,本文提出一个关系推理模型,该模型首先是基于深度学习的推理,然后基于关系图相似性匹配对关系进行推理,并且结合基于外部知识的词语相似性的计算,从而增强模型的推理能力。实验表明,该模型对整体视觉问答准确率有提升,并且因为不同的问题类型往往需要不同的背景知识和推理机制,对于有关图像场景或物体的比较具体类型的问题有较好提升作用,如“what sport”,“what animal”,“what are”,“what is”等类型的问题。
其他文献
目前我国正处于从城市扩张向城市更新转变的重要节点,城市发展空间日趋饱和,可新增建设用地愈发有限,而对历史文化街区的保护与更新正是存量时代下城市更新的重要组成部分。然而,作为历史文化街区各种社会活动重要载体的街道空间,却因为“空心化”、“商改仓”以及“拆旧建新”等普遍存在且最为突出的现实问题,导致了街道活力日趋衰退。另一方面,居民多数迁出、建筑批量拆改、功能全面置换的更新方式,虽然在一定程度上遏制了
RAP(Reclaimed Asphalt Pavement)料的再生利用对于建设资源节约型和环境友好型交通运输业具有积极意义,在提高RAP料利用率的同时,改善当前再生料材料设计结果与实际性能偏差较大的问题,是当前的重要研究内容。RAP料作为再生料重要组成部分,可能来自同一项目的不同标段,或同一标段的不同结构层,即便是同一结构层也可能会有不同养护工艺施工材料差异等,其来源的复杂性必然导致冷再生材料
在新时代以建设海洋强国为发展战略的背景下,海洋文明的挖掘与海洋文化多样性的保护无疑成了重点议题。疍民,作为一支特殊的水上族群,对海洋的探索极大地丰富了中原文明之外的海洋想象,长期的海洋实践建构了疍民独特的族群文化,是我国海洋文明建设的重要力量。随着城市化的推进,居住于沿河海地区的疍民,其文化最先受到现代化与全球化的冲击,许多独特的海洋文化现象因失去发展的根基与土壤而遭到破坏,很大程度上削弱了海洋文
在多轮人机对话场景下,用户对话常存在指代或信息省略的问题,给对话系统准确识别用户意图造成了巨大困难。为此,研究者提出使用序列到序列模型,利用历史对话信息,将存在指代或信息省略的当前对话改写成完整且无歧义的对话。这类模型在对话改写中实际有两个任务:1)从历史对话中抽取能补全当前对话语义信息的文本。2)利用该文本辅助生成改写对话。通过对现有数据集的分析,本课题发现,历史对话中只有一小部分文本影响当前对
铝合金自然氧化膜耐蚀耐磨性较差,在室外极易遭到腐蚀,它的应用领域和服役寿命会受到很大程度的限制。因此增强铝及其合金的耐腐蚀性具有很大的经济价值和实用价值。超疏水表面在耐腐蚀等方面有广泛的应用,故在金属基体上构建超疏水表面可大大提高金属表面的耐蚀性。然而目前为止开发出的超疏水表面制备方法或工艺中,大多存在一定的不足,如工艺复杂、成本昂贵、不适合大面积基体表面等。这一方面制约着超疏水表面的大规模批量制
珠三角是我国人口最稠密、经济最发达的区域之一,高潮位变化会直接影响到航运、堤防安全、供水安全等诸多方面。准确了解和掌握珠江口高潮位的变化规律,以及高潮位的精确预报,对该区域的生产生活具有实用意义。本文研究珠江八大口门之中的横门、磨刀门从2001~2015年月平均高潮位的波动。分析月平均高潮位的变化规律及主要成分,同时研究当地气压、气温、风速、径流量、西太平洋水位等多种水文气象因子对珠江口月平均高潮
广州珠江外资建筑设计院(下文简称:珠江院)创建于中国改革开放之初的1979年,伴随着珠江之滨的白天鹅宾馆一起诞生,是广州市顺应“引进外资,探索建筑设计新模式,为建设高级旅游宾馆及大型公共设施场所”的潮流而成立的一家国企性质的综合建筑设计院。其前身脉络可追溯到60年代,广州市政府为满足旅游住宿增长需求而组建的“旅游设计组”。在这一特殊社会情况和历史背景下,珠江院成为计划经济与市场经济结合下诞生的设计
隧道可以克服复杂地形、优化高速公路路线走向,在高速公路工程中较为常见,其中浅埋偏压小净距隧道是一个典型的代表。新奥法是目前隧道施工常用的工艺,近年来施工监控量测技术发展迅速,也涌现了各类无损检测技术方案和仪器设备,如何确定行之有效的监控量测技术方案与大量实际工程的现实需求相结合,对于确保隧道施工安全和工程质量是至关重要的。本文以某高速公路的浅埋偏压小净距隧道为研究对象,通过理论数值模拟和现场监控量
铅黄铜作为一种传统的工程材料,因其具有良好的铸造性能、力学性能、耐蚀性能和切削性能,被广泛应用于电工电气、家用五金、仪器仪表和卫浴等诸多行业。然而,铅黄铜在使用过程中容易析出Pb元素,对环境和人体健康均有较大危害,因此研制新型的环保无铅硅黄铜成为了必然趋势。目前,针对无铅硅黄铜的切削性能研究主要集中在断屑性能和刀具磨损,对于无铅硅黄铜的动态力学性能及切屑变形-断裂机制的研究较少。本文以无铅硅黄铜为
随着无人机市场的规模不断扩大,无人机相关配件需求量也同步上涨,其中桨翼作为消耗品需求量尤其巨大。无人机桨翼上印有桨影图案,图案移印时可能会出现各种缺陷,现采用人工目视的方式检测缺陷,存在检测效率低、检测质量一致性差等问题。机器视觉检测系统虽然可以实现自动化检测、统一检测质量,但现有的机器视觉算法检测标准过于单一,难以复现人工检测的智能判断与综合决策,即根据不同缺陷客户接受度的不同采取不一样的检测标