基于特征融合和非局部特征的图像语义分割算法

来源 :天津大学 | 被引量 : 0次 | 上传用户:xi19870623
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像语义分割是计算机视觉领域的一个重要的分支,在卫星图像分割、医学图像诊断、无人驾驶等方面都有着重要的应用。在全卷积网络之后,语义分割领域提出了越来越多的深度学习算法。当前,语义分割算法的关注点主要有两个方面:一是在分割精度上,通过相关算法提升语义分割的准确率。二是在分割的效率上,采用轻量化网络来满足实时性的需求。本文致力于提高语义分割的精度,针对现有语义分割编解码方法中语义信息不平衡的问题,以及语义分割中图像整体的空间相关性利用不充分的问题,分别提出了一种强调不同语义层级特征重要性的特征融合网络和一种利用循环神经网络构造的非局部特征的注意力网络。
  特征融合网络主要包含了三个模块:语义提升模块、注意力模块、稠密解码模块。语义提升模块针对基础网络每一个尺度的输出,构建了一种基于可变形卷积的丰富语义信息的策略。该模块可以有效的克服浅层特征由于感受野小全局信息少的缺点,同时不会增加过多的计算量。注意力模块在构建的过程中,充分融合高层语义特征和浅层语义特征,构建出融合特征的注意力权重,利用该权重对通道进行加权,丰富特征的全局信息,使网络能够自动对高层语义特征和低层语义特征进行取舍。稠密解码模块在解码模块的基础上,增加了稠密链接,使不同语义级别的输出相对于网络的整体输出具有不同的重要性,该模块可以增加高语义级别的特征对输出的贡献,同时保留了低语义级别特征提供的空间细节信息。实验使用多块NVIDIATeslaV100显卡,分别在PASCALVOC2012,Cityscapes,ADE20K数据集上进行了相关实验,在三个数据集上分别达到了81.9%、80.0%、43.76%的分割精度,实验证明了该特征融合方式和相应模块的有效性。
  非局部特征注意力网络将基础网络输出的特征分成不同的数据块,分别对应循环神经网络每个时序的输入。然后将不同的时序输出组合起来构成注意力特征,该特征通过与输入特征融合,使输出特征的每个位置都包含丰富的全局信息,从而达到对输出特征进行语义增强的目的。本文在实验过程中对不同的特征分割方式进行了验证,在Cityscapes数据集上进行了精度和速度的记录,通过实验验证了该机制能够在保持和卷积神经网络速度相近的基础上,提高语义分割的准确率。
其他文献
火灾早期,通常先有烟雾产生,随后才是火焰,因此烟雾检测能够提供比火焰更为及时的报警线索,对于确保人民群众的生命以及财产安全、推进火灾预防领域的发展意义重大。传统的烟雾检测方法通过监测空气中烟雾颗粒产生的物理变化来进行烟雾报警,比如温度、浓度等。但此类方法在时间和空间上均受到限制,从时间来说,烟雾浓度需达到一定范围才可以被传感器感知,这很可能导致最佳救援时机的错失;从空间上来说,一些开阔的室外环境也
学位
随着互联网技术的发展,海量图像数据不断涌入,人们对从海量数据中检索有效信息的需求不断增长。同时,近年来随着手机、平板等触摸屏技术的发展,基于草图的图像检索(Sketch-based Image Retrieval, SBIR)成为一种较为直观和有效的图像检索方式。相比于其他基于内容的图像检索方式,草图作为查询输入可以更好地描述关键信息,且更为直观和简洁。因此,基于草图的图像检索引起了研究人员的广泛
目标检测是计算机视觉中的一个主要研究方向,并且有很多实际的应用,比如无人驾驶、智能医疗等。传统的目标检测算法主要基于手工提取的特征以及可训练的浅层结构。近些年来,随着深度学习技术的快速发展,越来越多的研究人员趋向于用深度学习的方法解决计算机视觉任务。由于深度学习能够提取出更深层次、更高语义级别、更加鲁棒的特征,基于深度学习的目标检测算法在该领域取得了突破性进展。但许多复杂的应用场景既对目标检测系统
学位
随着显示器硬件制造水平的提高以及人们对显示器视觉质量需求的提升,数字显示器已经逐渐可以显示具有高比特深度的高动态范围内容,以提供更多、更细致的颜色表示,提高图像显示的视觉质量。然而,受限于图像采集设备,大多数图像视频以低比特深度形式存储。当这些低比特深度图像经过简单处理后直接在高比特深度显示器上显示时,图像的颜色平滑渐变区域会有明显的伪轮廓,降低了视觉质量。因此,研究合适的图像比特深度增强算法具有
近年来,3D处理技术的发展推进了立体视频的商业化进程。然而,任何3D处理技术都会造成立体视频的质量下降、立体感缺失等问题,从而影响人类的观看体验。因此,如何根据立体视频的特点,构建更加符合人类视觉感知的立体视频质量评价模型,已成为计算机视觉研究领域的关键问题之一。目前,立体视频质量的评价方法主要包括基于特征提取的方法、基于稀疏表示的方法和基于深度学习的方法。卷积神经网络作为深度学习的重要技术理论,
学位
在恶劣天气下,图像采集设备受到大气悬浮粒子(例如:雾、霾和小液滴等)的影响,导致图像产生颜色失真、对比度降低以及细节丢失等问题,不仅影响图像视觉效果,还会影响计算机视觉系统的分析与处理。因此,如何设计高质量的图像去雾算法成为亟待解决的问题。  本文介绍了图像去雾算法的研究背景和现状,讨论了大气散射模型、深度学习和生成对抗网络相关理论,以生成对抗网络为基础提出了两种图像去雾算法。具体工作包括:  首
学位
在语音信号处理系统中,噪声信号会对系统性能造成极大损害。因此,通常采用语音增强技术滤除语音信号中的噪声污染,以提升该段语音的质量。在实际应用场景中,噪声种类的丰富性和噪声特征的多样性大大限制了语音增强算法的性能,降低了增强后语音信号的质量,特别是信号的可懂度。因此本文提出了一种基于噪声分类的语音增强系统,主要包括以下三个部分:语音端点检测、噪声分类和噪声功率谱估计。  首先,使用语音端点检测算法区
学位
激光测距由于原理简单、可靠性强、测量距离远而广泛应用于航天、测绘、军事等领域。随着应用的不断深入,人们对于激光测距系统的尺寸、精度、功耗、测距范围等方面提出了更高的要求。因此采用更小尺寸、更低功耗、能实现更高精度、更大范围测量的单光子激光测距具有特殊的意义。  本文实现了基于时间相关单光子计数(Time-Correlated Single Photon Counting,TCSPC)的光子计数激光
学位
光场成像设备能够同时记录场景传递光线的位置信息和角度信息,将传统的二维图像扩至四维,更具有可塑性,围绕光场图像进行的有关计算机视觉领域的研究引起了广泛关注。其中,深度估计作为计算机视觉领域的一个分支,具有深远的研究意义和广泛的应用场景。基于光场图像的深度信息获取属于被动式深度获取方式,充分地发挥了由光场相机得到光场数据的优异特性,避免了单目深度估计和传统多目深度估计之间的矛盾。立体匹配算法可以对光
学位
随着经济的发展社会的进步,世界人口规模不断扩增,人口密度不断增大,在人类社会活动场所、内容形式变得丰富多彩的同时,人群的安全问题成为了社会各界关注的焦点。如一些购物广场、体育馆、音乐会场、商业街等公共场所常常分布着不同数量规模的人群,随着人群数量的增加,发生安全事故的概率随之增长,如何对聚集在一起的人群进行有效的分析成为了当下研究的热门问题。依靠人工观看监控视频分析人群行为并做出相应决策的方法,往