生成式对抗网络(Generative adversarial networks, GAN)是当前人工智能学界最为重要的研究热点之一。其突出的生成能力不仅可用于生成各类图像和自然语言数据,还启发和推动了各类半监督学习和无监督学习任务的发展。生成对抗网络是一种包含无监督学习的模型,通过无监督地向有标签样本学习其数据分布来生成类似的样本,这种过程更类似于人类学习外界知识时候采用的无监督方式。
生成对抗网络可以改善一般网络模型过于依赖数据数量及标签的缺点,是近几年内最有可能提升人工智能系统性能的网络结构之一。
GAN最早由Ian Goodfellow于2014年提出,以其优越的性能,在不到两年时间里,迅速成为人工智能一大研究热点。根据相关算法,AMiner近期最新推出了“生成式对抗网络”专题页,在该页面你可以研读近10年来GAN领域的百余篇经典论文,还可快速进行一键综述,了解GAN领域近年来的发展态势。
按照必读论文的被引用量,我们挑选了TOP10作简要分析解读,供大参考学习。
1. Generative Adversarial Nets(NIPS 2014)作者:Ian J. Goodfellow,Jean Pouget-Abadie,Mehdi Mirza,Bing Xu,David Warde-Farley,Sherjil Ozair,Aaron C. Courville,Yoshua Bengio单位:蒙特利尔大学引用量:14468。
本篇论文是Ian Goodfellow在2014年的经典之作,也可谓是GAN的开山之作。作者提出了一个通过对抗过程估计生成模型的新框架,在新框架中同时训练两个模型:一个用来捕获数据分布的生成模型G,一个用来估计样本来自训练数据而不是G的概率的判别模型D,G的训练过程是最大化D产生错误的概率。这个框架相当于一个极小化极大的双方博弈。
在任意函数G和D的空间中存在唯一的解,其中G恢复训练数据分布,并且D处处都等于1212。在G和D由多层感知器定义的情况下,整个系统可以用反向传播进行训练。在训练或生成样本期间不需要任何马尔科夫链或展开的近似推理网络。实验通过对生成的样品进行定性和定量评估来展示了该框架的潜力。
2. Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks(ICLR2015)作者:Alec Radford,Luke Metz,Soumith Chintala单位:Indico Research Boston,Facebook引用量:5906。
近年来,使用卷积神经网络的监督学习被大量应用于计算机视觉应用中。CNN在监督学习领域的巨大成功和无监督学习领域的无人问津形成了鲜明的对比,本文旨在链接上这两者之间的缺口。作者介绍了CNN的一个类,称为深度卷积生成对抗网络(DCGANs),它有着明确的结构约束,并且表明他们对非监督学习有着强烈的可信度。
通过在不同的图像数据集上的训练,展示出了令人信服的证据,他们的深度卷积对抗对从对象部分到场景,在生产器和判别器上都能学到层级的表示。此外,作者在一些新的任务上使用学习到的特征,表明了它们在一般化图像的表示上具有通用性。
3. Image-to-Image Translation with Conditional Adversarial Networks(CVPR 2017)作者:Phillip Isola,Jun-Yan Zhu,Tinghui Zhou,Alexei A. Efros单位:UC Berkeley引用量:3912。本文研究了将条件生成对抗网络作为图像转换问题的通用解决方案。
该网络不仅可以学习输入图像到输出图像的映射关系,还能够学习用于训练映射关系的loss函数。这使得作者可以使用同一种方法来解决那些传统上需要各种形式loss函数的问题。作者证明了该方法可以有效实现下列任务:从标签图合成相片,从线稿图重构对象,给图片上色等。所以他们不再需要人工设计映射函数,而且这项工作表明,即使不手动设计loss函数,也能达到合理的结果。本文中,作者研究了有条件的GANs。
和GANs从数据中学习一个生成模型一样,条件GANs学习一个条件生成模型。这使cGANs适用于图像转换问题,在输入图片上设置条件,得到相应的输出图像。本文的主要贡献是阐释了cGANs在很多问题上都能产生合理的结果,并提出了一个简单有效的框架,分析了几种重要结构选择的效果。
4. Representation learning: a review and new perspectives(IEEE Trans. Pattern Anal. Mach. Intell2013)作者:Yoshua Bengio,Aaron Courville,Pascal Vincent单位:蒙特利尔大学引用量:3648。本文是Bengio大神的又一篇综述文章。
机器学习算法的成功普遍有赖于数据的表示方法,作者作此为假设,是因为数据在不同的背景下会呈现出不同种解释,而不同的表示方法则可以或多或少地掩盖掉这种可变因素。尽管特定领域的特定知识可以用于表示方法的设计,但是,一般性的先验知识同样可以被拿来使用,且对人工智能的追寻,正激励着人们设计出可以将这些先验知识付诸实现的,更强大的——表示方法学习算法。
本文回顾了机器学习中无监督特征学习以及交叉训练的最新工作,内容包括概率模型、自动编码器、流形学习,以及深度学习架构的最新进展。这将激发一些长年未解的问题的发展,这些问题涉及:好的表示方法的学习、表示方法的计算(即推理)需要达到什么样的目标算为合适,表示方法学习、密度估计和流形学习三者之间具有什么样的几何关系。
5. Wasserstein Generative Adversarial Networks (ICML 2017)作者:Martín Arjovsky,Soumith Chintala,Léon Bottou单位:Courant Institute of Mathematical Sciences,Facebook引用量:3611。
本文可以说是GAN发展历史上的一个里程碑文献,它解决了以往GAN训练困难、结果不稳定、生成样本缺乏多样性等问题。
本文贡献在于提供一个完整的理论分析,关于Earth Mover(EM)距离与其他流行的概率距离和散度在分布学习的过程中行为上的差异;定义了一种GAN形式,叫做Wassertein-GAN,其能最小化一个合理的有效的EM距离的近似,并理论上分析对应的最优问题的解决方案;实验分析WGAN能够解决GAN训练的主要问题。
具体的,训练WGAN不续约维护一个小心的关于生成器和判别器之间的平衡,也不需要网络结构的精心设计。GAN中常见的mode dropping现象也急剧下降。WGAN最具竞争力的是可以通过将判别器训练到最优来连续的评估EM距离。画出这些曲线不止对调试和超参数搜索有用,而且与观察到的样本质量相关。
6. Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks(ICCV 2017)作者:Jun-Yan Zhu,Taesung Park,Phillip Isola,Alexei A. Efros单位:UC Berkeley引用量:3451。
图像到图像的转换是一个经典的视觉和图形问题,目的是在对齐的数据集中学习输入图像和输出图像之间的映射关系。然而,许多任务,对齐训练数据很难获取。作者提出一种不对齐数据集训(源数据域X到目标域Y)的学习方法。目标是学习映射G: X -> Y认为来自G(x)的分布图与使用对抗性损失的分布图无法区分。
因为这个映射是高度受限,所以作者使用一个逆映射:Y -> X,并引入一个循环一致性损失强制F(G(X))~X(反之亦然)。在不存在配对训练数据的情况下,给出了定性的结果,包括收集风格迁移,物体变形,季节转移,光增强等。通过对几种已有方法的定量比较,证明了作者的方法的优越性。
7. Improved Techniques for Training GANs (NIPS 2016)作者:Tim Salimans,Ian J. Goodfellow,Wojciech Zaremba,Vicki Cheung,Alec Radford,Xi Chen作者:Openai引用量:2699。
生成性对抗性网络是一类很有前途的生成模型,迄今为止一直受到不稳定训练和缺乏适当评估指标的阻碍。本文的工作为这两个问题提供了部分解决方案。作者提出了一系列新的结构特征和训练过程,将其应用于生成对抗网络(GAN)框架。作者专注于GAN的两个应用:半监督学习,以及人类视觉上高仿真的图像生成。
与大多数关于生成模型的工作不同,他们的主要目标不是为了训练一个匹配测试数据概率更高的模型,也不要求模型能够在不使用任何标签的情况下学好。新的技术框架在MNIST、CIFAR-10和SVHN的半监督分类中得到了优良的结果。通过视觉图灵测试证实,生成的图像具有高仿真效果:通过MNIST样本生成的图像,人类已经难以区分,通过CIFAR-10样本生成的图像,效果达效果达到了21.3%的人为错误率。
作者还以前所未有的分辨率展示了ImageNet示例,并表明文中的方法使模型能够学习ImageNet类的可识别特征。
8. Improved Training of Wasserstein GANs (NIPS 2017)作者:Ishaan Gulrajani,Faruk Ahmed,Martín Arjovsky,Vincent Dumoulin,Aaron C. Courville单位:Montreal Institute for Learning Algorithms,Courant Institute of Mathematical Sciences引用量:2218。
生成对抗网络(GAN)将生成问题当作两个对抗网络的博弈:生成网络从给定噪声中产生合成数据,判别网络分辨生成器的的输出和真实数据。GAN可以生成视觉上吸引人的图片,但是网络通常很难训练。
前段时间,Arjovsky等研究者对GAN值函数的收敛性进行了深入的分析,并提出了Wasserstein GAN(WGAN),利用Wasserstein距离产生一个比Jensen-Shannon发散值函数有更好的理论上的性质的值函数。但是仍然没能完全解决GAN训练稳定性的问题。作者发现失败的案例通常是由在WGAN中使用权重剪枝来对critic实施Lipschitz约束导致的。
在本论文中,研究者们提出了一种替代权重剪枝实施Lipschitz约束的方法:惩罚critic对输入的梯度。该方法收敛速度更快,并能够生成比权重剪枝的WGAN更高质量的样本。
9. Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network (CVPR 2017)作者:Christian Ledig,Lucas Theis,Ferenc Huszar,Jose Caballero,Andrew P. Aitken,Alykhan Tejani,Johannes Totz,Zehan Wang,Wenzhe Shi单位:Twitter引用量:2025。
本文针对传统超分辨方法中存在的结果过于平滑的问题,提出了结合最新的对抗网络的方法,得到了不错的效果,并且针对此网络结构,构建了自己的感知损失函数。针对传统超分辨中存在结果过平滑问题,在PSNR和SSIM评价指标上能得到很好的结果,但图像细节显示依旧较差,利用对抗网络结构的方法,得到了视觉特性上较好结果。
本文主要贡献如下:建立了使用PSNR和SSIM为评价标准的SRResNet,对图像进行放大4倍,取得了最好的测试结果。提出了SRGAN网络,该网络结构根据对抗网络网络结构提出了一种新的视觉损失函数(perceptual loss),利用VGG的网络特征作为内容损失函数(content loss),代替了之前的MSE损失函数。对生成的图像进行MOS(mean opinion score)进行评价。
10. Progressive Growing of GANs for Improved Quality, Stability, and Variation(ICLR 2018)作者:Tero Karras,Timo Aila,Samuli Laine,Jaakko Lehtinen单位:NVIDIA引用量:1509。
本文描述了生成对抗网络的新训练方法,关键思想是从低分辨率图像开始,逐渐增大(grow)生成器和判别器,并在训练进展过程中添加新的处理更高分辨率细节的网络层。这大大地稳定了训练,生成了前所未有高质量的图像。PGGAN首次生成1024×1024的人脸图像,在此之前128×128的已经相当困难且质量无法保证。此外,作者还提出些在训练过程中用到的trick等。
通过使用逐渐增大的GAN网络(先训练4x4,然后训练8x8,然后...直到1024x1024),配合精心处理过的CelebA-HQ数据集,实现了迄今最真实的GAN效果。