基于多层次注意力和视觉自适应的遥感图像描述生成研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:chyenu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
遥感图像描述生成任务旨在让计算机识别和理解图像的内容并自动生成相应的文本描述语句,它融合了计算机视觉和自然语言处理两个领域。其在遥感技术的很多应用场景,比如军事情报生成、信息检索、资源调查、灾害检测等都起着关键作用。不同于场景分类和目标检测这样的图像理解任务,图像描述生成不仅要识别图像中的对象和属性,还要建立两者间的关系,并生成符合人类规范的自然语言描述语句。受益于人工智能的蓬勃发展,深度神经网络在特征提取方面取得的成效极大地提高了生成图像描述语句的质量。但由于遥感图像自身存在的大场景成像、背景复杂多样、多尺度、旋转特性以及类别歧义问题,进一步加大了图像描述生成的难度。本文主要针对遥感图像场景语义难理解和多尺度的问题,以编码器-解码器为基础,提出了一个基于多层次注意力和视觉自适应的遥感图像描述生成模型MLVA-Net,主要工作如下:针对遥感图像多尺度和类别歧义特点,本文在编码器引入了一个多级注意力模块来优化CNN所提取的图像视觉特征,得到更抽象的深层图像特征。其通过空间和通道注意力机制来学习图像特定位置和不同尺度的特征,从而提升了模型的性能。针对CNN中卷积层在传播阶段视觉特征信息的丢失使得网络难以学习图像完整的语义信息问题,本文在编码器端设计了一种融合多层次特征的上下文注意力模块,其通过集成低层和高层的特征来提取图像中包含的语义信息,达到局部特征和全局特征之间的信息互补,从而提高了图像描述语句的多样性。针对遥感图像视觉特征与文本属性信息之间的语义歧义问题,本文提出了一个基于视觉自适应的LSTM解码器,通过引入视觉哨兵机制来实现对视觉信息和上下文信息的自适应选择,生成更具有判别力的描述语句,从而提高了图像描述语句的准确性。最后,本文从定量和定性的角度,通过消融实验、对比实验以及可视化效果来验证提出的MLVA-Net模型的有效性。在4个数据集UCM-Captions、Sydney-Captions、RSICD、和NWPU-Captions上通过图像描述生成5个常用的指标来评估模型。实验结果显示,本文提出的MLVA-Net在性能上具有较强的鲁棒性和泛化性,可以从背景复杂的遥感图像中生成更具判别力的描述语句。另外使用多层次注意力增加了对较小区域的关注,视觉哨兵实现了图像和文本的语义对齐,得到内容更准确、表达更丰富的遥感图像描述语句。
其他文献
癌症是世界范围内的重大公共卫生问题,已经严重威胁到人类的生命安全。根据2020年的全球癌症统计,肺癌发病率在恶性肿瘤中位居第二,在因癌症死亡的病因中位居第一。其中,非小细胞肺癌(Non-small cell lung cancer,NSCLC)约占所有肺癌病例的85%,其5年生存率极低,几十年来一直没有得到提高。在目前有效的治疗手段中,化疗仍然是晚期NSCLC的标准一线治疗方法。由于病人对化疗药物
多智能体系统协同控制的研究不仅有助于揭露生物集群行为的内部机制,而且有助于解决诸如无人机编队、智能电网和交通网络等实际应用问题。二阶动力学模型由于包含个体的位置项和速度项,因而能更好的反映出现实生活中个体的运动特性,从而使得二阶多智能体系统成为越来越多研究人员研究的焦点问题。另外,切换行为不仅会发生于系统的网络拓扑中,而且还会发生于个体的动力学行为中,故而切换多智能体系统的二阶一致性问题亟待被研究
带电粒子与二维自由电子气相互作用是表面物理学中的重要研究内容,也是典型的等离子物理、固体物理和核物理领域的交叉课题。随着现代微电子技术的快速发展,研究固体表面的性质显得越来越重要。带电粒子与二维自由电子气相互作用的研究在材料表面的镀膜、刻蚀和改性方面以及半导体、集成电路的大规模生产方面具有重要的应用。除此之外,在研究物质表面的性质方面,利用入射的带电粒子作为探针来探测物质表面的性质也是带电粒子与二
SIPA1蛋白(signal-induced proliferation-associated protein 1)是一种丝裂原诱导的GTPase激活蛋白,研究表明SIPA1蛋白参与多种恶性肿瘤的发生和转移,并且发现在恶性乳腺癌细胞中定位于细胞核,与DNA相互作用,调节integrinβ1/CD44等基因启动子的转录活性,从而影响细胞迁移/干细胞性,提示核定位的SIPA1蛋白能与DNA结合,可能起
研究背景和目的:血管硬化是心血管疾病的潜在危险因素,与吸烟密切相关。环氧-二十碳三烯酸(Epoxyeicosatrienoic acids,EETs)对心血管疾病有保护作用,但是易被可溶性表氧化物水解酶(Soluble epoxide hydrolase,s EH)代谢为没有生物活性的二醇。以前的研究发现,EETs具有抑制血管重构的作用,然而s EH敲除能否改善尼古丁导致的血管硬化目前未见报道。因
极化码(Polar Codes)是第一类被理论证明达到信道容量的编解码方案,自提出以来就备受关注。连续相消列表(Successive Cancellation List,SCL)译码算法,可以有效抑制连续相消(Successive Cancellation,SC)译码算法中的错误传播现象,提升中短码长下的纠错性能,是目前应用最为广泛的极化码译码算法之一。现有的极化码SCL译码器硬件实现多为列表并行
带内全双工(In-Band Full-Duplex,简称IBFD)技术具有在不额外增加频谱的前提下,实现频谱效率翻倍的潜力。这在频谱资源日益稀缺、且频谱效率的基数已然较高的今天,尤其具有吸引力。全双工技术所面临的最大挑战在于克服非常强的自干扰:以典型Wi-Fi系统为例,其自干扰相对背景噪声的功率差异高达110d B。为了不影响系统接收机的性能,这就要求将自干扰功率至少降低110d B。考虑到自干扰
日渐严重的致病微生物传播问题引起研究者的广泛关注,因此研发新型的抗菌剂势在必行且大有可为。纳米过氧化镁(Nano-Mg O2)作为一种生物相容性好、无毒害的金属过氧化物,在抗菌领域具备巨大的应用潜力。本文采用不同的工艺方法制备纳米过氧化镁,研究其抗菌性能,并通过复合改性的方式制备银/过氧化镁纳米复合物,旨在进一步提升纳米过氧化镁的抗菌性能。主要研究结果如下:(1)采用两种典型的工艺方法制备纳米过氧
药物设计是计算生物学研究的热门方向,考虑到计算机模拟的低成本、耗时少等优点,使用分子对接软件来模拟靶标蛋白与小分子之间的相互作用,已成为药物设计过程中的常见手段。已有的分子对接软件常采用多构象法来描述小分子柔性。但蛋白质柔性的处理是一个巨大挑战,当前最常见的处理方法是“系综对接”(或集合对接)。基于分子对接的虚拟筛选作为药物设计的辅助工具,有着非常重要的应用价值,如今这一技术已经变成了药物发现过程
为了满足电动汽车在快速充电及双向充放电等应用场合上的需求,需研制高压大功率双向变换器以满足快速充电站网络的要求。对于传导式的充放电模块,多采用AC/DC和DC/DC的两级结构。本课题针对后级结构中两相并联三电平双向Buck/Boost变换器的控制策略进行优化,主要包括电感电流均流控制、输入电压均压控制和开关管错相控制三个方面。为实现电感电流均流,本文介绍了一种解耦的均流环设计。现有并行的输出控制器