论文部分内容阅读
图像生成模型是用于对图像进行概率建模的概率模型,而深度神经网络可以看成是一个非常复杂的、拟合能力非常强的非线性函数,可以用于搭建生成模型来估计概率密度函数的参数。图像生成模型可以用于更多不同图片样本的生成,可以用于图像信息的恢复,也可以用于不同模态的图片或者图片与文字、语音等之间的转换,还可以用于预测未来,例如可以根据视频中过去帧和当前帧预测来未来帧。本文首先介绍了生成模型在有监督学习和无监督学习中的定义,分析了为什么要学习生成模型的几点原因,并介绍了生成模型在国内外取得的发展,以及将目前的深度生成模型做了一个简单的分类。然后本文介绍了目前深度学习领域中常用的三种生成模型:深度置信网络、变分自编码器和生成式对抗网络,及其改进和变种。我们提出的方法就是基于其中的变分自编码器。接着为了学习可解释的表达来增强图片生成的可控性,本文提出了一个多任务变分自编码器,对人脸图片和人脸轮廓进行联合概率建模,将人脸图片中的位置信息分解出来,并将人脸视觉属性视为人脸图片的一部分隐藏变化,利用二值属性标注使一部分隐藏变量来捕捉这部分视觉属性信息,这样便可以学习到关于人脸图片的分解的、可解释的隐藏表达。利用这个可解释的隐藏表达可以控制生成图片的一些可解释的成分。也可以对输入图片进行编辑,改变输入图片的某些视觉特性。最后本文对人脸照片在简笔画的条件下进行条件概率建模,并将人脸视觉属性视为一部分隐藏变量,控制从人脸简笔画到人脸照片的合成。实验证明,我们提出的模型可以生成更加自然、更加真实的人脸照片。输入一张简笔画,可以通过调节属性变量,生成具有不同视觉属性的人脸照片。将人脸视为人脸照片的内容,将背景、光照等与人脸无关的因素视为人脸照片的风格,给定一张风格照片,我们的模型可以从任意简笔画合成具有目标风格的照片。