本文对ICCV2019论文《SinGAN:Learning a Generative Model from a Single Natural Image》进行解读。这篇论文提出了一种可以从单幅自然图像学习的非条件生成模型--SinGAN,能够捕捉图像的内部块分布信息,生成具有相同视觉内容的高质量、多变的样本。SinGAN包含一个金字塔结构的全卷积GAN,每个GAN负责学习图像不同尺度的分布信息。
因此可以生成具有任意尺寸和纵横比的新样本,这些样本具有明显的变化,同时又可以保持训练图像的整体结构和精细的纹理特征。与之前的单图像GAN方案对比,本文方法不局限于纹理图像,而且是非条件的(即从噪声生成样本)。大量实验证明SinGAN生成的样本具有较好的真实性,而且可以应用于多种图像处理任务中。
生成对抗网络(GAN)在对视觉数据的高维分布建模方面取得了巨大飞跃。
特别是用类别特定数据集(如人脸、卧室)进行训练时,非条件GAN在生成逼真的、高质量样本方面已取得显著成功。但建模具有多个类别、高度多样化的数据集(如ImageNet)的分布仍然是一项重大挑战,并且通常需要根据另一种输入信号来调节生成或为特定任务训练模型。本文将GAN带入了一个新领域--从单幅自然图像中学习非条件生成模型。
对单幅自然图像中的图像内部分布进行建模已被公认为是许多计算机视觉任务的有用先验,单幅自然图像通常具有足够的内部统计信息,可以使网络学习到一个强大的生成模型。作者提出了一种具有简单统一架构的模型SinGAN,能够处理包含复杂结构和纹理的普通自然图像,而不必依赖于具有同一类别图像的数据集。这是通过金字塔结构的全卷积GAN实现的,每个GAN负责捕捉不同尺度的图像分布。
经过训练后,SinGAN可以以任意尺寸生成各种高质量的图像样本,这些样本在语义上类似于训练图像,但包含新的目标和结构。并且多种图像处理任务都可以应用SinGAN,如图像绘制、编辑、融合,超分辨率重建和动画化。
作者在图像场景跨度很大的数据集上对SinGAN进行了定性和定量的测试,定性生成的图像如图1和图4所示。
SinGAN很好地保留目标的全局结构和较好的纹理信息,如图1中的山、图4中的热气球或金字塔。此外,模型很真实地合成了反射和阴影。在训练时使用较少数目的尺度,则最粗尺度的有效感受野会更小,从而只能捕获精细纹理。随着尺度数量的增加,出现了更大的支撑结构,并且更好地保留全局目标的排列(位置关系)。测试时可以选择开始生成的尺度,SinGAN的多尺度结构可以控制样本间差异的总量。
从最粗尺度开始生成会导致整体结构变化很大,在某些具有较大的显著目标的情况下,可能会生成不真实的样本。当从较细的尺度开始,可以保持整体结构完整,同时仅会改变更精细的图像特征。为了量化生成图像的真实性以及它们捕捉训练图像内部统计信息的程度,作者使用两个度量:AMT真假用户调研和FID的单幅图像版本。AMT测试结果发现,SinGAN可以生成很真实的样本,人类判别的混淆率较高。
利用单幅图像FID量化SinGAN捕捉x内部统计信息的能力的结果如表1所示。从N-1尺度开始生成的SFID评价值比从N尺度开始生成低,这与用户调研一致。作者还报告了SIFID与假图像混淆率之间的相关性,两者之间存在显著的负相关性,这意味着较小的SIFID通常表示较大混淆率。
本文介绍了一种可以从单幅自然图像中学习的新型非条件生成框架--SinGAN。证明了其不仅可以生成纹理,还具有为复杂自然图像生成各种逼真样本的能力。与外部训练的生成方法相比,内部学习在语义多样性方面具有固有的限制。例如,如果训练图像只包含一条狗,SinGAN不会生成不同犬种的样本。不过,作者通过实验证明,SinGAN可以为多种图像处理任务提供非常强大的工具。