华人博士生首次尝试用两个Transformer构建一个GAN:不用卷积,也能生成清晰图像

作者: 学术头条

来源: 机器之心

发布日期: 2021-02-18

德州大学奥斯汀分校的Yifan Jiang、Zhangyang Wang,IBM Research的Shiyu Chang等研究者首次尝试构建了一个只使用纯transformer架构、完全没有卷积的GAN,名为TransGAN。实验结果表明,TransGAN在STL-10上的IS评分为10.10,FID为25.32,实现了新的SOTA。该研究表明,对于卷积骨干以及许多专用模块的依赖可能不是GAN所必需的,纯transformer有足够的能力生成图像。

最近,CV研究者对transformer产生了极大的兴趣并取得了不少突破。这表明,transformer有可能成为计算机视觉任务(如分类、检测和分割)的强大通用模型。我们都很好奇:在计算机视觉领域,transformer还能走多远?对于更加困难的视觉任务,比如生成对抗网络(GAN),transformer表现又如何?

在这种好奇心的驱使下,德州大学奥斯汀分校的Yifan Jiang、Zhangyang Wang,IBM Research的Shiyu Chang等研究者进行了第一次试验性研究,构建了一个只使用纯transformer架构、完全没有卷积的GAN,并将其命名为TransGAN。

与其它基于transformer的视觉模型相比,仅使用transformer构建GAN似乎更具挑战性,这是因为与分类等任务相比,真实图像生成的门槛更高,而且GAN训练本身具有较高的不稳定性。从结构上来看,TransGAN包括两个部分:一个是内存友好的基于transformer的生成器,该生成器可以逐步提高特征分辨率,同时降低嵌入维数;另一个是基于transformer的patch级判别器。

研究者还发现,TransGAN显著受益于数据增强(超过标准的GAN)、生成器的多任务协同训练策略和强调自然图像邻域平滑的局部初始化自注意力。这些发现表明,TransGAN可以有效地扩展至更大的模型和具有更高分辨率的图像数据集。实验结果表明,与当前基于卷积骨干的SOTA GAN相比,表现最佳的TransGAN实现了极具竞争力的性能。

具体来说,TransGAN在STL-10上的IS评分为10.10,FID为25.32,实现了新的SOTA。该研究表明,对于卷积骨干以及许多专用模块的依赖可能不是GAN所必需的,纯transformer有足够的能力生成图像。研究者在多个阶段重复上述流程,直到分辨率达到(H_T , W_T )。然后,他们将嵌入维数投影到3,并得到RGB图像。

用于判别器的tokenized输入与那些需要准确合成每个像素的生成器不同,该研究提出的判别器只需要分辨真假图像即可。这使得研究者可以在语义上将输入图像tokenize为更粗糙的patch level。

研究者在CIFAR-10数据集上对比了TransGAN和近来基于卷积的GAN的研究,结果如下表5所示:如上表5所示,TransGAN优于AutoGAN (Gong等人,2019),在IS评分方面也优于许多竞争者,如SN-GAN (Miyato等人,2018)、improving MMDGAN (Wang等人,2018a)、MGAN (Hoang等人,2018)。

TransGAN仅次于Progressive GAN和StyleGANv2。对比FID结果,研究发现,TransGAN甚至优于Progressive GAN,而略低于StyleGANv2 (Karras等人,2020b)。研究者将TransGAN应用于另一个流行的48×48分辨率的基准STL-10。

为了适应目标分辨率,该研究将第一阶段的输入特征图从(8×8)=64增加到(12×12)=144,然后将提出的TransGAN-XL与自动搜索的ConvNets和手工制作的ConvNets进行了比较,结果下表6所示:与CIFAR-10上的结果不同,该研究发现,TransGAN优于所有当前的模型,并在IS和FID得分方面达到新的SOTA性能。

由于TransGAN在标准基准CIFAR-10和STL-10上取得不错的性能,研究者将TransGAN用于更具挑战性的数据集CelebA 64 × 64,结果如下表10所示:TransGAN-XL的FID评分为12.23,这表明TransGAN-XL可适用于高分辨率任务。虽然TransGAN已经取得了不错的成绩,但与最好的手工设计的GAN相比,它还有很大的改进空间。

在论文的最后,作者指出了以下几个具体的改进方向:对G和D进行更加复杂的tokenize操作,如利用一些语义分组(Wu et al., 2020)。使用代理任务(pretext task)预训练Transformer,这样可能会改进该研究中现有的MT-CT。更加强大的注意力形式,如(Zhu等人,2020)。

更有效的自注意力形式(Wang等人,2020;Choromanski等人,2020),这不仅有助于提升模型效率,还能节省内存开销,从而有助于生成分辨率更高的图像。本文一作Yifan Jiang是德州大学奥斯汀分校电子与计算机工程系的一年级博士生(此前在德克萨斯A&M大学学习过一年),本科毕业于华中科技大学,研究兴趣集中在计算机视觉、深度学习等方向。

目前,Yifan Jiang主要从事神经架构搜索、视频理解和高级表征学习领域的研究,师从德州大学奥斯汀分校电子与计算机工程系助理教授Zhangyang Wang。在本科期间,Yifan Jiang曾在字节跳动AI Lab实习。今年夏天,他将进入Google Research实习。

UUID: ef0a6930-ae76-4076-9364-56c5c4233772

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2021年/2021-02-18_华人博士生首次尝试用两个Transformer构建一个GAN:不用卷积,也能生成清晰图像.txt

是否为广告: 否

处理费用: 0.0060 元