论文部分内容阅读
遥感图像语义理解是遥感领域中的重要新兴研究方向。遥感图像语义理解是指通过机器学习、模式识别等方法让机器使用自然语言形式将遥感图像当中包含的语义内容表达出来。这种句子形式的语言表达不仅能够表示图像中包含的目标,也能够表示目标之间复杂的属性和关系。随着计算机视觉领域的快速发展,将计算机视觉和遥感图像处理领域融合到一起进行研究是一个有巨大应用潜力的方向,比如遥感图像检索,军事情报生成和场景理解。遥感图像的智能处理希望能够让计算机自动地生成有关遥感图像语义内容的表达。不同于传统遥感图像处理领域任务的目标是获得单词级别的语义标签,比如遥感图像分类,遥感图像目标检测,遥感图像描述生成是将遥感图像翻译成描述性自然语言句子的任务,该任务是遥感图像语义理解中的重要一部分。研究者们为遥感图像语义理解的发展付出了巨大的努力。但是,之前的遥感图像描述方法生成的句子相对都比较简单,而且生成的句子在语法上也比较固定。为了适用于不同的应用场景,句子的生成过程应该更加灵活。本文首先探索遥感描述生成的数据和模型,并从不同角度来解决这个问题。在此基础上,为了增加交互性,本文提出基于声音指导的描述生成方法和基于检索的话题单词描述生成,最后采用视觉问答的这种更为直接的人机交互形式来探索语义理解。具体地,本文的主要内容和贡献点简述如下:(1)基于遥感图像特点的描述生成数据集和模型探索。针对遥感图像的尺度多变,类别多样和上帝视角等特点,本文探索遥感图像描述生成任务。构建遥感图像的描述生成数据集,通过约定面向图像内容的标注规则,为每张图像提供五句描述,克服主观认知理解的干扰;在构建的数据集上,进行编码器解码器框架的性能分析,对比不同编码器和解码器的描述生成效果;考虑到人类描述的生成过程,在编码器解码器框架中引入注意力机制,并在数据集上进行实验验证。(2)基于联合句子表达的遥感图像描述生成方法。针对遥感图像描述生成角度单一的问题,本文探索基于联合句子表达的遥感图像描述生成方法。为了全方位地来描述遥感图像内容,本文提出了联合句子表达的方法,该表达包含更为全面的图像内容信息;针对联合句子表达和图像表达的对应学习问题,引入度量学习来学习嵌入矩阵;在测试过程中,通过计算测试图像表达和所有联合句子表达的距离,将具有最小距离的联合句子表达解析为五个描述性句子。实验表明,联合句子表达要比单个句子表达捕获更多有效信息。(3)基于声音主动注意力的遥感图像描述生成方法。针对描述生成过程人机互动性较差的问题,本文引入了声音来表示观察者的先验信息使得计算机与人之间的交流更加方便;针对不同模态信息处理的差异性问题,本文提出声音主动注意力框架,该框架同时考虑输入的遥感图像和声音来进行描述生成,并基于门控循环单元构建了三个模块,分别对声音进行编码,将声音与图像特征相结合,生成描述。实验表明引入声音可以产生更符合观察者期望语义的描述。(4)基于检索话题循环记忆网络的遥感图像描述生成方法。针对遥感图像描述过程不符合人们常识认知的问题,本文提出了将话题单词作为将遥感图像转换成描述性句子的中间桥梁,其中话题单词是从五个描述中提取的确定性信息;针对循环神经网络的梯度回传复杂度高的问题,本文提出基于一维卷积的记忆网络作为新型解码器;此外,用户可以通过编辑话题单词来更改生成的句子。实验验证了基于话题单词的句子生成方式的灵活性。(5)基于互注意力感知网络的遥感图像问答方法。针对遥感图像描述互动性不够充分的问题,本文提出遥感图像问答任务;针对现有遥感图像问答数据集缺失的问题,本文基于遥感图像分类数据集和目标检测数据集来自动生成遥感图像问答数据集;考虑问答常识,问题通常与遥感图像的某些区域有关,引入注意力机制以生成紧凑特征表达,同样,对问题也采用注意力机制以更多地关注具有语义含义的单词。实验表明,所提出的方法在大多数情况下都能产生正确的答案。