论文部分内容阅读
图像作为社交网络的主流信息载体,包含丰富的信息,能够为人们分享日常生活、记录事件、传递感情,被广泛地应用在人们日常生活中。图像翻译是在训练样本充足的情况下,源域到目标域之间的映射,可以将目标的一种表示形式转换为另一种形式。图像处理和计算机视觉问题可以看作是一种图像翻译问题,比如图像去模糊、人脸上妆、风格迁移、图像修复等。2014年提出的生成对抗网络(GAN)在图像翻译领域表现突出,可以根据需求生成不同内容的图像。基于GAN网络的图像翻译,输入是随机噪声,自由度大很难快速生成需要的目标内容,易出现振荡达不到均衡,出现部分模式崩溃现象,使得生成图像的轮廓、纹理等特征的丢失,造成图像翻译效果不佳。针对这些缺点,本文提出了通过改变网络跳跃连接次数改进U-Net生成对抗网络模型的图像翻译算法,进行有监督图像翻译和Pix2Pix生成对抗网络模型对比实验、无监督图像翻译和CycleGAN模型对比实验,论文提出的改进模型能够很好地解决生成图像背景失真、多样性缺失的问题。首先,研究Pix2Pix生成对抗网络优化算法、学习率、迭代次数对图像翻译效果的影响,实验中当迭代次数为200次、优化算法为Adam、学习率为0.001时,网络的图像翻译效果最好。其次,针对Pix2Pix生成对抗网络在图像翻译过程中生成图像的轮廓、纹理等特征的丢失,造成图像翻译效果不佳的问题,提出了通过改变网络中跳跃连接次数的形式改进U-Net生成对抗网络模型的图像翻译算法。U-Net模型第i层和第n-i层承载着类似的信息,通过跳跃连接就可以将第i层的特征复制到第n-i层,使得生成图像更接近于真实图像。一次跳跃连接易丢失图像的背景、纹理、轮廓等特征,实验中通过逐次增加第i层和第n-i层之间的跳跃连接次数进行图像翻译实验,确定网络跳跃连接次数的最佳值。在CUFS人脸数据库上应用Pix2Pix生成对抗网络、改进的U-Net模型进行实验,实验结果得出,当网络跳跃连接次数等于5时,图像翻译效果达到最优,图像翻译结果的MOS评分为4.2、PSNR达到14.3634、SSIM达到0.5763、L1损失为29292746、Cosin为0.9732,均优于Pix2Pix生成对抗网络模型。最后,采用无监督学习方法,数据库为horse2zebra、apple2orange库,应用改进的网络跳跃连接模型在非成对数据下进行图像翻译实验。实验结果看出,改进的网络跳跃连接方法相比于CycleGAN模型,生成图像质量和多样性有了进一步的提高,实验生成结果的Fréchet Inception distance(FID)评价达到166.39,比CycleGAN模型降低了2.84,解决了生成图像背景失真问题,且模型收敛速度快。