论文部分内容阅读
在计算机视觉领域中,由于近年来深度学习的蓬勃发展以及大规模可用视觉数据的积累,各种视觉理解方法取得了突飞猛进的发展。视觉理解技术对视频或图片的内容进行分析和理解,目标是从真实世界的视频或图片中获取知识。同时,在计算机视觉领域中还广泛存在着一个与视觉理解的目标相反的研究方向:视觉生成,旨在将抽象表示转换为视觉数据。本文着重研究视觉生成任务中的图像到图像翻译问题,旨在学习一个映射使得图像可以从源图像域变换到目标图像域。图像到图像翻译是一个影响力广泛的新兴研究课题,其包含了计算机视觉、计算机图形学和图像处理中的许多问题。在图像到图像翻译给工业界和学术界带来了许多机遇的同时,其还存在着许多现有方法无法很好解决的具有研究价值和挑战的问题,包括可解释性问题,泛化性问题和训练稳定性问题等。总的来说,本文围绕图像到图像翻译内在的基本原理以及其在实际应用中所面临的潜在问题展开了一系列的研究:(1)基于条件输入的图像到图像翻译方法。本文提出了一种条件图像到图像翻译的问题以及一种条件对偶生成对抗网络算法。具体来说,本文通过分析条件图像到图像翻译中图像特征的变换过程,提出利用生成对抗网络和对偶学习来解决条件图像到图像翻译问题。实验结果表明,本文提出的网络模型可以有效地转换带有条件信息的图像,并且在各种任务中均展现出了鲁棒性。(2)基于隐空间解耦的图像到图像翻译方法。本文提出了一种域监督生成对抗网络,使得图像翻译模型具有可解释的隐空间解耦能力。具体来说,本文通过分析发现了现有图像翻译方法缺乏对域监督信息的有效利用的问题,并针对此问题提出基于域监督对域特有特征提取器进行预训练;通过解耦两种隐空间特征,即域独立特征和域特有特征,进一步设计了一种条件域监督生成对抗网络用于条件图像到图像翻译。实验结果表明,该方法可以更好地对两种特征进行解耦,并且在多个图像翻译任务上取得最先进的结果。(3)基于多路径一致性的图像到图像翻译方法。本文通过分析得知现有图像翻译模型一步翻译生成的图像和两步翻译生成的图像没有保持一致,从而提出从源域到目标域的直接翻译与从源域经过辅助域再到目标域的间接翻译之间的差异应该被最小化,即提出了一种新的多路径一致性损失函数。该方法可以有效地规范图像翻译任务的训练,并且减少图像翻译结果中的错误情况,提升图像翻译质量。该方法在各个标准数据集上都取得了比现有多图像域和两图像域翻译模型更优的性能。(4)基于元学习的少量样本图像到图像翻译方法。本文提出了一种元翻译生成对抗网络算法,通过分析发现现有图像翻译方法缺乏对历史学习经验的记忆的问题,提出从元学习的角度出发研究无监督图像翻译问题,使得网络模型能够有效利用先前图像翻译任务中的学习经验。提出的模型包含一个元生成器以保留以前的翻译经验,一个元判别器以教授元生成器如何快速地泛化到新任务。实验结果表明所提出的元学习方法性能普遍优于普通图像翻译模型,并且收敛速度更快。(5)基于多层次结构的一次图像到图像翻译方法。针对目前图像翻译工作需要大量图像数据的问题,本文提出针对两张不成对图像的图像翻译方法。该方法通过使用两个金字塔型的生成器和判别器来逐步将生成的结果从全局结构逐步细化为局部细节。实验结果表明,提出的方法有效地解决了一次性图像翻译的问题。(6)基于对抗训练的零次图像到图像翻译方法。本文提出一种零次图像到图像翻译问题,旨在实现在未知图像域上的图像翻译。具体来说,分析不同图像域存在的关联信息,使用受语义一致性约束的域特有特征分布对每个可见/不可见域进行建模。引入了视觉语义编码器和属性语义编码器,使得两个模态之间保留相同的语义信息。实验结果表明,本文提出的模型可以有效地解决零次图像到图像翻译问题。