论文部分内容阅读
红外成像对拍摄的景物热辐射成像,不受光照影响、作用距离远、抗干扰能力强,在军事、民用等领域具有广泛应用。在自动驾驶、安防监测、质量检测等应用中,需要通过计算机视觉方法实现对采集的红外图像进行场景理解,实现对拍摄图像内容的解析。场景理解产生了不同的分支计算机视觉任务,如图像分割、场景分类、目标识别和检测、语义分割等。由于红外图像反映了目标及背景的热辐射差异,没有颜色信息,且存在对比度低、边缘模糊、纹理信息难以表达等固有特征。采用传统的计算机视觉算法很难实现对红外场景的全面解析。近年来,深度学习在计算机视觉的诸多任务取得了成功。“语义分割”通过给图像打上像素级的具有语义信息标签,同时实现对图像的分割和分类两个子任务,是实现图像场景理解的一种基础方法。通过深度卷积神经网络进行有监督学习,是近年来解决可见光图像语义分割任务的主要方法。但是针对红外图像相关研究还开展较少,因此本文基于深度学习的方法,针对红外图像的语义分割的相关算法进行了深入的研究,主要贡献包括如下几个方面:1)规划和建立红外场景图像数据集,为开展相关算法研究提供基础。数据集对深度学习算法研究起到非常重要的影响。目前,针对红外图像语义分割研究的开放数据集还很匮乏。本文建立针对室外场景图像语义分割任务的数据集。图像数据主要包含4类别目标景物,对目标进行人工精细标注。采用数据增强方法对数据集进行进一步扩展,弥补数据量的不足。数据集提供1000张原始14位图像数据、1万张数据增强和图像预处理后的8位增强图像,相对应的基准标签图,训练测试集划分规则以及计算模型预测精度的代码。2)结合Inception Net和ResNet的思想提出了100层的并联残差网络结构PresNet-100,应用于红外场景分类与语义分割。该PresNet-100网络由4组滤波尺寸不同的共16个并联残差结构组成,在保证网络潜在子网络多样性的思想上,降低层次深度,增加网络宽度。PresNet-100相比于ResNet-101减少了网络参数,提高了训练速度。通过ImageNet数据集训练和测试验证,表明PresNet-100比ResNet-101具有更快的计算速度,训练过程收敛更迅速、特征表达能力更好。3)构建了基于PresNet的多尺度语义分割网络Multi-PresNet。运用全卷积网络结构、多孔卷积、多尺度融合网络结构等方式在图像分类网络结构基础上结合PresNet网络模型建立语义分割网络结构,并与基于VGG-16的三种语义分割网络进行对比实验。提出了“可见光数据集预训练,红外数据集精调”的方式,将4个网络在Pascal VOC数据集和Cityscapes数据集预训练得到的参数模型作为初始化参数,在红外数据集进行精调训练以及测试验证。有效地弥补了红外数据集图像数据较少的不足。实验表明,基于PresNet的多尺度融合语义分割网络预测精度较高,网络性能优良。4)提出了结合超像素块的高阶条件随机场优化算法。对语义分割网络输出的预测分数图进行后处理优化,解决轮廓定位不够精确的问题。使用两层超像素信息构建条件随机场优化算法,分别从红外图像原始数据直接线性压缩的8位图像和增强预处理的8位图像提取,高阶条件随机场模型表示为单个像素势函数、成对像素势函数和超像素分割块势函数三部分的加和。与原CRF后处理算法比,CRF+SLIC算法能更好的保留同质块信息,得到更精确的轮廓。同时,研究了综合边缘预测和域变换的语义分割后处理算法,进一步提高语义分割的边缘精度。