GAN强势归来?英伟达耗费64个A100训练StyleGAN-T,优于扩散模型

来源: 机器之心

发布日期: 2023-02-04 09:00:04

英伟达等机构推出的新款StyleGAN-T模型表明,生成对抗网络(GAN)在文本到图像生成任务中仍然具有竞争力,尽管在某些方面仍落后于扩散模型,但其快速的推理速度和隐空间控制合成的结果使其成为一个有吸引力的选择。

扩散模型在文本到图像生成方面是最好的吗?不见得,英伟达等机构推出的新款StyleGAN-T,结果表明GAN仍具有竞争力。文本合成图像任务是指,基于文本内容生成图像内容。当下这项任务取得的巨大进展得益于两项重要的突破:其一,使用大的预训练语言模型作为文本的编码器,让使用通用语言理解实现生成模型成为可能。其二,使用由数亿的图像-文本对组成的大规模训练数据,只要你想到的,模型都可以合成。

训练数据集的大小和覆盖范围持续飞速扩大。因此,文本生成图像任务的模型必须扩展成为大容量模型,以适应训练数据的增加。最近在大规模文本到图像生成方面,扩散模型(DM)和自回归模型(ARM)催生出了巨大的进展,这些模型似乎内置了处理大规模数据的属性,同时还能处理高度多模态数据的能力。

有趣的是,2014年,由Goodfellow等人提出的生成对抗网络(GAN),在生成任务中并没有大放异彩,正当大家以为GAN在生成方面已经不行的时候,来自英伟达等机构的研究者却试图表明GAN仍然具有竞争力,提出StyleGAN-T模型。StyleGAN-T只需0.1秒即可生成512×512分辨率图像。

值得一提的是,谷歌大脑研究科学家Ben Poole表示:StyleGAN-T在低分辨率(64x64)时生成的样本比扩散模型更快更好,但在高分辨率(256x256)时表现不佳。研究者们表示,他们在64台NVIDIA A100上进行了4周的训练。

有人给这项研究算了一笔账,表示:StyleGAN-T在64块A100 GPU上训练28天,根据定价约为473000美元,这大约是典型扩散模型成本的四分之一……GAN提供的主要好处在于推理速度以及可以通过隐空间控制合成的结果。StyleGAN的特别之处在于,其具有一个精心设计的隐空间,能从根本上把控生成的图像结果。

而对于扩散模型来说,尽管有些工作在其加速方面取得了显著进展,但速度仍然远远落后于仅需要一次前向传播的GAN。本文从观察到GAN在ImageNet合成中同样落后于扩散模型中得到启发,接着受益于StyleGAN-XL对判别器的架构进行了重构,使得GAN和扩散模型的差距逐渐缩小。在MS COCO上的零样本任务中,StyleGAN-T以64×64的分辨率实现了比当前SOTA扩散模型更高的FID分数。

在256×256分辨率下,StyleGAN-T更是达到之前由GAN实现的零样本FID分数的一半,不过还是落后于SOTA的扩散模型。StyleGAN-T的主要优点包括其快速的推理速度和在文本合成图像任务的上下文中进行隐空间平滑插值,分别如图1和图2所示。

StyleGAN-T架构概览该研究选择StyleGAN-XL作为基线架构,因为StyleGAN-XL在以类别为条件的ImageNet合成任务中表现出色。然后该研究依次从生成器、判别器和变长与文本对齐的权衡机制的角度修改StyleGAN-XL。在整个重新设计过程中,作者使用零样本MS COCO来衡量改动的效果。除此以外,该研究使用FID分数来量化样本质量,并使用CLIP评分来量化文本对齐质量。

为了在基线模型中将以类别为引导条件更改为以文本为引导条件,作者使用预训练的CLIP ViT-L/14文本编码器来嵌入文本提示,以此来代替类别嵌入。接着,作者删除了用于引导生成的分类器。这种简单的引导机制与早期的文本到图像模型相匹配。如表1所示,该基线方法在轻量级训练配置中达到了51.88的零样本FID和5.58的CLIP分数。

值得注意的是,作者使用不同的CLIP模型来调节生成器和计算CLIP分数,这降低了人为夸大结果的风险。实验结果该研究使用零样本MS COCO在表2中的64×64像素输出分辨率和表3中的256×256像素输出分辨率下定量比较StyleGAN-T的性能与SOTA方法的性能。图5展示了FID-CLIP评分曲线:为了隔离文本编码器训练过程产生的影响,该研究评估了图6中的FID–CLIP得分曲线。

图2显示了StyleGAN-T生成的示例图像,以及它们之间的插值。在不同的文本提示之间进行插值非常简单。对于由中间变量w_0 = [f(z), c_text0]生成的图像,该研究用新的文本条件c_text1替换文本条件c_text0。然后将w_0插入到新的隐变量w_1 = [f(z), c_text1]中,如图7所示。通过向文本提示附加不同的样式,StyleGAN-T可以生成多种样式,如图8所示。

UUID: 8498b1a8-1187-4e26-a99a-c1f3e7d66dfc

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2023年/学术头条_2023-02-04_GAN强势归来?英伟达耗费64个A100训练StyleGAN-T,优于扩散模型.txt

是否为广告: 否

处理费用: 0.0051 元