论文部分内容阅读
深度学习作为目前流行的研究热点,涉及到智能搜索、数据挖掘、自然语言处理以及图像和语音等各个领域。而使用生成对抗网络(Generative Adversarial Networks GAN)生成图像则是目前图像领域比较受追捧的热门探究。本文研究的则是从草图图像向真实世界的图像的转换。首先,研究集中了从自然风景的草图图像到真实世界的风景图像之间的相互转换。其中,草图与自然风景图像之间的转换是一对一的。草图图像在转换为真实的风景图像过程中,由于草图线条简单,颜色单一,而转换过后的风景图像景物较多,颜色繁杂,因此这种转换具有一定的挑战性。在草图风景图像到自然风景图像转换的基础之上,我们又研究了在其他几个数据集上的图像转换,同时草图图像到对应的真实风景之间的转换可能对应着多种可能的风格,草图到真实图像之间的转换并不是一对一的,而是一对多的。例如相同的草图人脸图像对应到真实的图像中,可能会有不同的肤色,发色等。因此我们在一对一的转换的基础上,设计使用隐码向量来产生多种可能的输出,实现一对多的转换。因此,本文主要做了以下几点工作:(1)设计了一个自动转换网络,我们将其命名为稀疏残差注意力生成对抗网络(SRAGAN),来实现从草图到自然风景图像的转换。在损失函数上,除了生成对抗损失和L1正则化的逐像素损失,我们又增加了 L1正则化的感知损失,在感知上缩小原图与生成图像之间的差异,提升生成的图像的质量。(2)在生成器的设计上,使用了编码器-残差块-解码器结构。同时将注意力机制嵌入到残差块中,结合了空间注意力与通道注意力机制,将图像通道间和图像空间之间的特征关系结合起来,使得模型在提取特征时能够关注更“有用”的特征。最后在输入的图像与输出的图像之间,增加了一个“快捷”连接(Shortcut Connection),更好的保留图像特征。(3)为了产生多样化的输出,在上述SRAGAN结构的基础上,本文在输入上增加了隐码向量实现输入的草图到输出的真实图像的一对多的转换,包括草图到包,草图到鞋,以及草图到人脸的转换。并且我们的隐码向量来源于两种隐空间,一种是标准正太分布,一种是源域图像经过编码器后产生的分布。只使用来源于标准正太分布的隐码向量,会使得生成的图像缺乏源域图像的信息,而只使用来源于源域图像经过编码器后产生的隐空间采样的隐码向量,则在测试阶段不容易取样隐码向量。因此,本文将两种隐码向量结合起来。因为这个方法基于隐空间正则化和感知注意力的生成对抗网络,因此本文将这种多模态的图像生成方法命名为LSRAGAN。(4)在原有的SRAGAN的损失函数的基础上,我们将多个感知损失结合起来,形成多联合的感知损失,更加全面的计算感知差异。同时针对模型塌陷(Mode Collapse)问题,即生成的图像趋向于相同的问题,本文提出了一种惩罚方法来正则化生成器以增加隐码向量的重要性,取样不同的隐码向量,产生不同的更加多样化的输出,称之为隐空间正则化损失。(5)经过大量的实验证明,本文提出的方法能够生成比较真实的图像,同时与其他相关的方法相比,表现出了更好的性能。