论文部分内容阅读
随着深度学习相关理论的不断完善以及硬件设备的不断更新,基于深度学习的计算机视觉任务成了当前最热的研究课题之一,其中,最具挑战性的研究课题是图像语义分割技术。图像语义分割是一种从像素水平上理解、识别图片内容,并将每个像素按照语义信息进行分割的分割方法。语义分割结果的好坏将直接影响其它计算机视觉任务,如图像分类、场景解析、目标检测等。目前,图像语义分割技术广泛应用于自动驾驶、医学影像分析、智能家居等领域。因此,图像语义分割技术的研究具有非常重要的现实意义。经典的语义分割模型一般是利用卷积神经网络来构建的,这类模型的核心在于改进或优化网络结构以提升语义分割精度。本文从这一点出发,针对现有语义分割模型的不足,提出合理的改进策略,使得模型能够提取更加有效的语义信息,提升分割精度。具体工作如下:(1)本文提出一种基于多尺度特征融合和混合空洞卷积的图像语义分割模型。首先,使用级联的深度残差网络、混合空洞卷积、改进的空洞空间金字塔池化模块构建单个分支网络DCNN。在DCNN中,级联的深度残差网络通过增加网络深度,捕捉长跨度的局部上下文特征。在级联的深度残差网络中引入混合空洞卷积,能有效减轻“网格”效应。其次,将输入图像缩放至4个不同尺度,输入包含4个DCNN分支的并行网络,提取物体的多尺度特征。最后,将并行网络每个分支的输出通过多尺度特征融合层得到融合结果,并对融合结果使用全连接条件随机场进行迭代优化,得到精细的分割结果。实验表明,本文提出的语义分割模型特征表达能力强,能有效地提升语义分割精度。(2)为了建模上下文像素依赖关系,提供相关的全局特征信息。本文将由双向GRUs构建的循环层堆叠在卷积神经网络之上,提出一种基于深度残差网络和双向GRUs的图像语义分割模型。首先,使用深度残差网络对输入图像进行局部特征提取,并对得到的特征图添加3个坐标通道层组成新的特征图;然后,将新的特征图送入循环层建模上下文的像素依赖性,并对输出特征图再添加3个坐标通道层组成新的特征图送入另外一个循环层;最后,将另外一个循环层的输出送入空洞空间金字塔池化模块提取图像的多尺度上下文信息,得到粗略得分图,并对得分图进行上采样操作输出语义分割结果。实验表明,利用CNN提取到的局部特征信息以及双向GRUs建模的图像像素之间的关联性,能有效地建模局部和全局上下文特征;对特征图添加坐标通道层,能丰富模型的坐标信息,提升模型的泛化能力,产生分辨率高、边界精确的语义分割结果。