论文部分内容阅读
图像语义分割技术(Semantic Segmentation)一直是计算机视觉领域中一个极具挑战性的任务,在图像理解中起着极其重要的作用。图像语义分割集合了图像分割与图像识别两个领域,其目的是能精确地分割目标物体,并对图像中的每一个像素点赋予一个语义标签。近年来,深度学习(Deep learning)在计算机视觉中扮演着极其重要的角色,其具有高效的自动特征提取功能,通过对低层次的特征进行组合,组成高层次的特征,并得到不同特征之间的空间相关性,这使得深度学习算法在提取图像的全局特征信息和局部特征信息方面具有很大的优势。基于这些特点,深度学习也为图像语义分割问题提供了新的思路。由于卷积神经网络深层提取的特征虽然有利于图像识别,但丢失了大部分像素信息,不利于端到端的分割,而浅层提取的特征虽然保留了大部分像素信息,但是特征提取不充分,不利于物体识别。基于这些观察以及目前的研究现状,本文主要进行了如下研究:(1)本文设计了一个深度上下文卷积神经网络(Deep Context Convolutional Network,DCCNet),它能以一种整合的方式去组合来自网络不同层的特征信息进行语义分割。DCCNet的分割结果然后再通过全连接的条件随机场(Dense Connected Conditional Random Fields,Dense CRF)进行后处理,在分割时,将图像中像素点类别之间的联系考虑进来,从而进一步提高图像的语义分割性能。(2)本文提出一种新的编码-解码的网络结构,叫做稠密反卷积网络(Dense Deconvolution Network,DDN),该网络卷积网络部分深层的特征通过不断的上采样作用于反卷积网络部分的浅层。DDN通过端到端的训练,能全面的探索图像中嵌入的多尺度上下文信息。(3)本文最后提出了一种模型压缩算法。由于深度卷积神经网络(Deep Convolutional Netural Network,DCNN)模型参数量过大,使得网络占用了太多的存储资源,无法应用于移动端和嵌入式芯片上。基于分析,本文提出来一种低Bit量化算法来对模型参数进行量化,从而实现模型小型化。实验结果证明,本文提出的以上方法在PASCAL VOC2012或者SIFTFlow数据集上的分割性能要优于其他分割算法。