高分辨率遥感图像语义理解研究

来源 :中国科学院大学(中国科学院西安光学精密机械研究所) | 被引量 : 0次 | 上传用户:gzqeedaa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
遥感图像语义理解是遥感领域中的重要新兴研究方向。遥感图像语义理解是指通过机器学习、模式识别等方法让机器使用自然语言形式将遥感图像当中包含的语义内容表达出来。这种句子形式的语言表达不仅能够表示图像中包含的目标,也能够表示目标之间复杂的属性和关系。随着计算机视觉领域的快速发展,将计算机视觉和遥感图像处理领域融合到一起进行研究是一个有巨大应用潜力的方向,比如遥感图像检索,军事情报生成和场景理解。遥感图像的智能处理希望能够让计算机自动地生成有关遥感图像语义内容的表达。不同于传统遥感图像处理领域任务的目标是获得单词级别的语义标签,比如遥感图像分类,遥感图像目标检测,遥感图像描述生成是将遥感图像翻译成描述性自然语言句子的任务,该任务是遥感图像语义理解中的重要一部分。研究者们为遥感图像语义理解的发展付出了巨大的努力。但是,之前的遥感图像描述方法生成的句子相对都比较简单,而且生成的句子在语法上也比较固定。为了适用于不同的应用场景,句子的生成过程应该更加灵活。本文首先探索遥感描述生成的数据和模型,并从不同角度来解决这个问题。在此基础上,为了增加交互性,本文提出基于声音指导的描述生成方法和基于检索的话题单词描述生成,最后采用视觉问答的这种更为直接的人机交互形式来探索语义理解。具体地,本文的主要内容和贡献点简述如下:(1)基于遥感图像特点的描述生成数据集和模型探索。针对遥感图像的尺度多变,类别多样和上帝视角等特点,本文探索遥感图像描述生成任务。构建遥感图像的描述生成数据集,通过约定面向图像内容的标注规则,为每张图像提供五句描述,克服主观认知理解的干扰;在构建的数据集上,进行编码器解码器框架的性能分析,对比不同编码器和解码器的描述生成效果;考虑到人类描述的生成过程,在编码器解码器框架中引入注意力机制,并在数据集上进行实验验证。(2)基于联合句子表达的遥感图像描述生成方法。针对遥感图像描述生成角度单一的问题,本文探索基于联合句子表达的遥感图像描述生成方法。为了全方位地来描述遥感图像内容,本文提出了联合句子表达的方法,该表达包含更为全面的图像内容信息;针对联合句子表达和图像表达的对应学习问题,引入度量学习来学习嵌入矩阵;在测试过程中,通过计算测试图像表达和所有联合句子表达的距离,将具有最小距离的联合句子表达解析为五个描述性句子。实验表明,联合句子表达要比单个句子表达捕获更多有效信息。(3)基于声音主动注意力的遥感图像描述生成方法。针对描述生成过程人机互动性较差的问题,本文引入了声音来表示观察者的先验信息使得计算机与人之间的交流更加方便;针对不同模态信息处理的差异性问题,本文提出声音主动注意力框架,该框架同时考虑输入的遥感图像和声音来进行描述生成,并基于门控循环单元构建了三个模块,分别对声音进行编码,将声音与图像特征相结合,生成描述。实验表明引入声音可以产生更符合观察者期望语义的描述。(4)基于检索话题循环记忆网络的遥感图像描述生成方法。针对遥感图像描述过程不符合人们常识认知的问题,本文提出了将话题单词作为将遥感图像转换成描述性句子的中间桥梁,其中话题单词是从五个描述中提取的确定性信息;针对循环神经网络的梯度回传复杂度高的问题,本文提出基于一维卷积的记忆网络作为新型解码器;此外,用户可以通过编辑话题单词来更改生成的句子。实验验证了基于话题单词的句子生成方式的灵活性。(5)基于互注意力感知网络的遥感图像问答方法。针对遥感图像描述互动性不够充分的问题,本文提出遥感图像问答任务;针对现有遥感图像问答数据集缺失的问题,本文基于遥感图像分类数据集和目标检测数据集来自动生成遥感图像问答数据集;考虑问答常识,问题通常与遥感图像的某些区域有关,引入注意力机制以生成紧凑特征表达,同样,对问题也采用注意力机制以更多地关注具有语义含义的单词。实验表明,所提出的方法在大多数情况下都能产生正确的答案。
其他文献
本论文研究结构分为四个部分:导论、正文、结语和参考文献。论文正文部分由四章构成,分别是:第一章介绍谢·米·索洛维约夫所处时代背景与学术语境;第二章分析谢·米·索洛维
随着发电机组容量趋于大型化以及国家对环保要求的不断提高,火电机组的大气污染物排放已纳入严格监管。对火电机组烟气排放的控制,仅采用低氮氧化物(Nitrogen Oxides,NOx)燃
双稳态非对称铺设复合材料层合板壳结构是一种具有两种不同稳定状态特性的复合材料层合结构。双稳态非对称铺设复合材料层合板壳结构一般是由碳纤维与树脂复合制备而成,由于
叶片是航空发动机的重要组成部分,叶片的性能直接影响着发动机的整机性能、可靠性和使用寿命。叶片实现气体动能、热能和压力能的相互转化,承载状况十分复杂,工作环境十分恶
三七(Panax notoginseng(Burk.)F.H.Chen)是我国传统的名贵中药,多糖是三七的主要活性成分之一。热水提取的三七总多糖已经有研究报道,主要由葡萄糖、半乳糖和阿拉伯糖组成,
互联网作为一种技术形态,自诞生以来就与政治结下不解之缘,不仅推动政治上实践的变革,也引发了政治学研究的革命。网络问政作为互联网与政治的结缘之物,已经成为中国政治生活
地球表层的事物和现象,受内在规律的支配而生成与演化,但只要其存在,它就会在某一时间段上占据空间且呈现一定的空间形态,这是通过空间属性认知地理事物和现象本体的逻辑起点
高Q值微环谐振腔具有强光场局限能力以及高非线性系数,为光学频率梳技术向更高集成与更低阈值发展提供了新的实验平台。基于微环谐振腔的光学频率梳(简称微腔光频梳)天然具备
基于图像的三维重建及测量是计算机视觉领域一个重要问题,是计算机分析、理解和操作三维目标的基础。然而,由于匹配歧义性和三角测量误差放大等问题,基于图像的三维重建存在
X射线的发现距今已有125年的历史,它的发现为科学技术的发展与人类社会的进步做出了巨大贡献。作为一种波长极短的电磁波,X射线在空气中的传播距离十分有限。但是大气层以外