论文部分内容阅读
在移动互联网、大数据、大规模并行计算与脑神经科学等新理论与技术的驱动下,历经了数十年浮沉兴衰的人工智能技术迎来了新一轮的发展热潮。作为计算机观察、测量、感知与理解现实世界并与之交互的重要基础之一,计算机视觉技术得到了众多来自学术界与工业界研究者的关注。在众多不同的计算机视觉任务中,图像语义分割技术因其在像素级别对图像语义内容进行发掘而被广泛应用于语义边缘检测、场景理解、工业生产、自动驾驶等实际任务中。同时,深度学习和卷积神经网络相关技术的爆发也为图像语义分割技术的发展提供了良好的机遇,并助其不断取得突破性的进展。
基于深度学习的图像语义分割技术在实践过程中经常面临数据问题和效率问题。一方面,语义分割模型通常需要有监督的训练,模型的性能会显著地受到用于训练的带有人工标注的数据数量的影响。由于语义分割模型训练的数据需要对图像中每个像素的语义类别进行精确地标注,故获取训练数据的成本高昂。对训练数据的依赖和获取训练数据的成本间的矛盾导致了数据问题。另一方面,语义分割模型普遍有参数多、开销高、延迟长等低效率的特点,难以应用在诸如增强现实、自动驾驶等软硬件资源受限的场景。尽管可以人工设计模型以匹配需求,但仍然难以高效地为多样化的需求提供定制化的语义分割模型。相对低下的模型运行效率和实践中模型定制化需求之间的矛盾造成了效率问题。本文针对上述的数据问题和效率问题进行了三项研究。为解决数据问题,本文采用无需人工标注的低成本计算机合成图像作为训练数据,围绕无监督情况下模型的迁移学习和域适应方法开展了两项研究,包括如何将合成图像与真实图像在底层表观特性和高层特征表达这两个层面同时进行对齐以实现模型的域适应,和如何利用图像语义分割结果中存在的固有属性对语义分割模型在真实图像上的推理结果进行正则化约束以实现模型的跨域迁移。为解决效率问题,本文研究了在约束条件下进行卷积神经网络结构的自动设计并自动平衡模型的语义分割性能与实际的约束条件的方法。
论文的主要工作和创新点如下:
(1)论文提出了一种用于图像语义分割的无监督域适应方法,以利用计算机合成图像在无需人工标注信息的情况下训练用于真实图像的语义分割模型。本论文提出了用于语义分割的全卷积自适应网络,该网络包含了表观特性适应网络和特征表达适应网络两大部件。前者在像素空间中学习两个域之间的转换模式,可以将源域图像变换为采用了目标域中图像的“样式”绘制而成的图像;后者以对抗学习的策略进行优化,以最大程度地利用学习到的源域和目标域图像的特征表达来欺骗域鉴别器,从而获得图像的域不变的特征表达。实验结果表明,本方法能充分发掘利用视觉表观层面和特征表达层面的规律,解决图像语义分割模型的无监督域适应问题。
(2)论文提出了一种基于预测结果正则化的图像语义分割模型迁移方法。该方法地利用语义分割的内在属性针对性地设计正则化函数,以减轻语义分割模型迁移时的域失配与过拟合问题。本方法分别尝试在图像块、聚类以及空间逻辑关系三个层面对模型在目标域图像上的分割结果进行正则化约束。通过将这三个层面的正则化约束加入基于对抗学习的全卷积网络并进行联合训练,本方法可以取得显著优于现有方法的语义分割性能。
(3)论文提出了一种图像语义分割模型的可自定义架构搜索方法,实现基于约束条件下的语义分割模型自动设计的目的。本方法地改变了现有模型架构搜索算法仅能追求最高的模型性能而无法将实际任务中的约束条件纳入优化目标的现状。本方法根据语义分割模型的实际约束条件,赋予每个候选项相应的成本,并在性能驱动的优化目标之中以损失函数的形式加入额外的成本约束项,进而帮助该方法在搜索性能最优结构的同时考虑相应的约束条件,最终实现语义分割模型的带约束自动设计的目的。本方法在Cityscapes和CamVid数据集上进行了详尽的评估,验证了其在模型性能与约束条件之间进行平衡的能力和自动设计高性能低延时语义分割模型的能力。
基于深度学习的图像语义分割技术在实践过程中经常面临数据问题和效率问题。一方面,语义分割模型通常需要有监督的训练,模型的性能会显著地受到用于训练的带有人工标注的数据数量的影响。由于语义分割模型训练的数据需要对图像中每个像素的语义类别进行精确地标注,故获取训练数据的成本高昂。对训练数据的依赖和获取训练数据的成本间的矛盾导致了数据问题。另一方面,语义分割模型普遍有参数多、开销高、延迟长等低效率的特点,难以应用在诸如增强现实、自动驾驶等软硬件资源受限的场景。尽管可以人工设计模型以匹配需求,但仍然难以高效地为多样化的需求提供定制化的语义分割模型。相对低下的模型运行效率和实践中模型定制化需求之间的矛盾造成了效率问题。本文针对上述的数据问题和效率问题进行了三项研究。为解决数据问题,本文采用无需人工标注的低成本计算机合成图像作为训练数据,围绕无监督情况下模型的迁移学习和域适应方法开展了两项研究,包括如何将合成图像与真实图像在底层表观特性和高层特征表达这两个层面同时进行对齐以实现模型的域适应,和如何利用图像语义分割结果中存在的固有属性对语义分割模型在真实图像上的推理结果进行正则化约束以实现模型的跨域迁移。为解决效率问题,本文研究了在约束条件下进行卷积神经网络结构的自动设计并自动平衡模型的语义分割性能与实际的约束条件的方法。
论文的主要工作和创新点如下:
(1)论文提出了一种用于图像语义分割的无监督域适应方法,以利用计算机合成图像在无需人工标注信息的情况下训练用于真实图像的语义分割模型。本论文提出了用于语义分割的全卷积自适应网络,该网络包含了表观特性适应网络和特征表达适应网络两大部件。前者在像素空间中学习两个域之间的转换模式,可以将源域图像变换为采用了目标域中图像的“样式”绘制而成的图像;后者以对抗学习的策略进行优化,以最大程度地利用学习到的源域和目标域图像的特征表达来欺骗域鉴别器,从而获得图像的域不变的特征表达。实验结果表明,本方法能充分发掘利用视觉表观层面和特征表达层面的规律,解决图像语义分割模型的无监督域适应问题。
(2)论文提出了一种基于预测结果正则化的图像语义分割模型迁移方法。该方法地利用语义分割的内在属性针对性地设计正则化函数,以减轻语义分割模型迁移时的域失配与过拟合问题。本方法分别尝试在图像块、聚类以及空间逻辑关系三个层面对模型在目标域图像上的分割结果进行正则化约束。通过将这三个层面的正则化约束加入基于对抗学习的全卷积网络并进行联合训练,本方法可以取得显著优于现有方法的语义分割性能。
(3)论文提出了一种图像语义分割模型的可自定义架构搜索方法,实现基于约束条件下的语义分割模型自动设计的目的。本方法地改变了现有模型架构搜索算法仅能追求最高的模型性能而无法将实际任务中的约束条件纳入优化目标的现状。本方法根据语义分割模型的实际约束条件,赋予每个候选项相应的成本,并在性能驱动的优化目标之中以损失函数的形式加入额外的成本约束项,进而帮助该方法在搜索性能最优结构的同时考虑相应的约束条件,最终实现语义分割模型的带约束自动设计的目的。本方法在Cityscapes和CamVid数据集上进行了详尽的评估,验证了其在模型性能与约束条件之间进行平衡的能力和自动设计高性能低延时语义分割模型的能力。