新AI登场：英伟达GauGAN图像生成软件震撼发布

新AI登场，不光设计师、修图师坐不住了，摄影师也坐不住了！英伟达再推黑科技GauGAN，这款图像生成软件仅凭用户随意画的线条和色块，就能自动生成逼真的图片，效果堪比风光大片！这完全要感谢英伟达最新推出的一款黑科技。英伟达在GTC 2019上推出了一个令人惊叹的图像生成器。它使用生成对抗性网络（GAN），用户只需点击几下即可绘制出近乎真实的图像。

该软件能够立即将几行草草勾勒的轮廓图，变成华丽的山顶日落图景。图中，左边是人类操作员画的，右边是AI直接“简单加上几笔细节”后生成的。在普通人看来，右边的图像几乎毫无破绽，看不出这并非一张风光照片，而是AI生成的虚拟海滩。从图中我们可以看出，GauGAN并不是像Photoshop里贴一个图层那样，简单的把图形贴上去，而是根据相邻两个图层之间的对应关系对边缘进行调整。

现在我们放出完整的视频：这次，不光设计师、修图师坐不住了，摄影师也坐不住了！英伟达的黑魔法：GauGAN。他们给这个软件起名叫做GauGAN。这个软件只是对英伟达神经网络平台强大性能的一次证明。这个软件能够将人类的绘画方式和过程进行编译，在几秒钟内就能画出草图，并将其转换为逼真的照片。GauGAN目前提供三种工具：颜料桶、钢笔和铅笔。屏幕底部是一系列对象。

选择“云”，并用铅笔画一条线，软件将生成一缕逼真的云。但这些不是固定的图像模板。GauGAN可以根据不同的输入生成独有的结果。用户可以使用输入工具勾勒出一棵树的形状，软件就能自动生成一棵树。画一条直线，会产生一个裸露的树干。在顶部画一个“灯泡”一样的形状，软件将自动用叶子进行填充，生成一棵完整的树。GauGAN是多模式软件。

如果有两个用户使用相同的设置，创建了相同的草图，软件中内置的随机数也能确保最终的生成的作品是不同的结果。为了获得实时结果，GauGAN必须在Tensor计算平台上运行。 Nvidia在RDX Titan GPU平台上进行了演示，生成了实时的输出结果。演示者绘制一条线，软件立即产生了结果。

不过，英伟达应用深度学习研究副总裁Bryan Catanzaro表示，未来经过一些修改后，GauGAN可以在几乎任何平台上运行，包括CPU上，但生成的结果可能需要几秒钟时间才能显示。在演示中，不同对象之间的界限划分还存在一些问题，项目团队表示将会继续改进。两个目标接触的部分会出现很浅的线条。英伟达声称图片生成结果可以像照片一样真实，但仔细看其实达不到这个程度。

神经网络目前在训练对象以及训练目标上还存在问题。希望这个项目有助于解决这个问题。在训练数据上，英伟达利用Flickr上的100万张图像来训练神经网络。大多数图像来自Flickr的知识共享计划，Catanzaro说表示，该公司仅使用经过的图像。英伟达表示，这款软件可以合成数十万个对象及其与现实世界中其他对象的关系。在GauGAN中，如果用户改变季节设置，叶子将从树枝上消失。

如果树前有一个池塘，那么这棵树就会在水中反射出来。Catanzaro希望这款软件可以在英伟达的新AI游戏平台上使用，但目前要实现这个目标还需要做一些进一步的工作。在视频游戏中使用此类工具可以为用户打造更加身临其境的环境，但是英伟达并没有直接开发这样的软件。对于此软件可能被恶意利用来生成虚假图像的问题， Catanzaro同意这是一个重要的问题，可能比一个项目和一个公司更重要。

他说，这是一个信任问题，而不是技术问题，社会必须面对和妥善处理这个问题。即使在这个有限的演示来看，从视频游戏设计师、到架构师、再到休闲游戏玩家都很容易被这个软件的功能所吸引。目前英伟达没有透露关于将此软件进行商业化发布的任何计划，但预计很快就会发布公开试用版，任何人都可以体验。支持该项目的技术论文已经发布。Catanzaro表示，此文已经被CVPR 2019接收。

预印本论文地址：https://arxiv.org/pdf/1903.07291.pdf。从论文中可以看出，GauGAN应用软件是基于名为“空间自适应归一化”技术实现的。论文中对该技术进行了比较系统的介绍，并通过数据集实验表明，该技术在图像内容生成和编辑任务上比以往方法实现了更优秀的表现。而该技术的提出，是由“条件图像合成”任务开始的。条件图像合成是指在某些输入数据上生成照片级真实图像的任务。

早期的方法是通过拼接图像数据库中的片段来计算输出图像。最近则一般使用神经网络直接学习映射。后一种方法通常更快，并且不需要外部图像数据库。条件图像合成的特定形式可以将语义分割掩模转换为照片级真实的图像。该技术可以产生广泛的应用，包括内容生成和图像编辑。这种形式称为“语义图像合成”。通过堆叠卷积，归一化和非线性层构建的传统网络架构达不到最优效果，因为它们的归一化层很可能会“带走”输入语义掩码中的信息。

为了解决这个问题，我们提出了空间自适应的归一化，这是一种条件归一化，通过空间自适应学习转换使用输入语义布局来调制激活，可以在整个网络中有效地传播语义信息。我们将模型在几个具有挑战性的数据集上进行了实验（包括COCO-Stuff，ADE20K和Cityscapes）。结果表明，在空间自适应归一化层的帮助下，与几种最先进的方法相比，网络的生成结果明显更好了。

另外，空间自适应归一化对语义图像合成任务的几种变体任务同样有效，而且支持基于多模态和样式的图像合成，能够实现可控的多样化输出，最终呈现了让人惊叹的效果：GauGAN的意义。GauGAN可以为建筑师、城市规划者、景观设计师、游戏开发者、广告设计师…等各种和图像相关的职业在创建虚拟世界时提供强大的工具。通过人工智能了解现实世界的外观，这些专业人员可以更好地制作想法原型并快速更改合成场景。

NVIDIA应用深度学习研究副总裁Bryan Catanzaro将GauGAN背后的技术比作“智能画笔”，可以填充粗略分割图中的细节。粗略分割图是显示场景中物体位置的高级轮廓图，GauGAN允许用户绘制自己的分割图并操纵场景，用沙子，天空，海洋或雪等标签标记每个图形。通过对一百万张图像的训练，深度学习模型将填充景观并显示停止结果：在池塘中绘制，并且附近的元素如树木和岩石将在水中出现反射。

将片段标签从“草”交换为“雪”，整个图像变为冬季场景，以前的绿叶树变得贫瘠。“这就像一张彩图图片描述了一棵树在哪里，太阳在哪里，天空在哪里，”Catanzaro说。“然后神经网络能够根据它对真实图像的了解，填充所有的细节和纹理，以及反射，阴影和颜色。”Catanzaro说：“通过简单的草图进行头脑风暴设计要容易得多，而且这种技术能够将草图转换成高度逼真的图像。

”也就是说，产品设计师可以在头脑风暴的阶段，就直接产出高保真原型；而乙方更是可以在甲方当面提需求的时候，就给出预览效果图。但是话又说回来，虽然GauGAN的出现，让我们不需要具备专业的绘画、设计、摄影技能就可以制造出逼真的图像，但它毕竟只是一个帮我们将脑海中的想法实现出来的工具，而非我们大脑本身，如果我们脑海中没有任何想法，它也无法凭空去创造任何东西。

可以预见的是，基础技能方面的需求正在变得不那么重要，而对更高阶的技能需求（比如创意、审美、洞察）的要求正在变得越来越高。