GPT-4前奏？OpenAI发布120亿参数图像版GPT-3

继GPT-3的颠覆之后，即将出道的GPT-4会走向何方？这一问题牵动着很多人的心。在不久前，OpenAI的联合创始人、首席科学家IIya Sutskever曾在吴恩达编辑的《The Batch周刊 - 2020年终特刊》上撰文称“2021年，语言模型将开始了解视觉世界”。元旦之后，OpenAI立马为这个说法提供了佐证。

1月5日，刚刚开工的OpenAI同时发布了两个与GPT有关的文本-图像工作：DALL·E：一个利用文本-图像数据集，有着120亿参数的“GPT-3”，可以根据文本生成各种各样的图像；CLIP：可以通过自然语言的监督来有效学习视觉概念，只需要提供要识别的视觉类别名称，利用CLIP便能够做任意的视觉分类，类似于GPT-2和GPT-3的“Zero-shot”功能。

DALL·E的名字来源于艺术家萨尔瓦多·达利(Salvador dalí)和皮克斯动画工作室(Pixar)的《机器人总动员》(WALL-E)的合成词，名字本身充满机器对艺术的想象和探索。简单来说，DALL·E是一个有120亿参数版本的GPT-3，利用文本-图像对数据集进行训练，输入文本，生成相应图像。例如：输入一个穿着芭蕾舞裙遛狗的萝卜宝宝，输出相应的图像。

GPT-3给人们带来的深刻印象是，大模型可以执行各种文本生成任务。在ICML 2020上的一篇论文“Image GPT”中，作者表明相同类型的神经网络也可以用于生成高保真度的图像。作为对比，DALL·E的研究说明了，通过自然语言便可以直接做各种图像生成任务。

与GPT-3一样，DALL·E是一个transformer语言模型，它同时接收文本和图像作为一个单一数据流，其中包含1280个tokens（256个文本，1024个图像），并利用最大似然训练并生成所有的tokens。模型中的64个self-attention层，每一个都有attention mask，这能够使每个image token都可以参与到text token。

DALL·E对text tokens使用标准的因果掩码，对行、列或卷积注意力模式的image token使用稀疏注意力，具体这取决于每一层的情况。与利用GAN来做文本到图像的生成不同，DALL·E能够为大量五花八门的句子创造出似是而非的意象，这些句子很多时候本身就是对语言结构的探索。

OpenAI的研究人员对DALL·E的结果进行了探索，包括控制同一个对象的不同属性、同时控制多个对象以及它们的属性和空间关系、视觉透视与立体：控制场景的视点，并渲染场景的3D风格、内部/外部结构可视化、推断背景细节、时装设计、室内设计、将不相关的概念进行结合、动物插图、零样本视觉推理、地理概念、时间概念。

与DALL·E一同发布的还有神经网络CLIP（对比式语言-图像预训练，Contrastive Language–Image Pre-training）。简单来说，它可以从自然语言监督中有效地学习视觉概念。CLIP可适用于任何视觉分类基准，只需提供要识别的视觉类别的名称，类似于GPT-2和GPT-3的“零样本学习”（zero-shot）能力。

CLIP的方法可以解决基于标准深度学习做计算机视觉所遇到的许多问题，例如数据集昂贵、应用范围狭窄、现实场景中表现不佳。当然CLIP的局限性也很明显，它在较为抽象或者系统性的任务和更为复杂的任务上表现并不是很好，仅比随机猜测好一点点。对于训练集未覆盖的图像的概括性较差，例如尽管CLIP学习了更为复杂的OCR系统的数据，但在对MNIST数据集进行评估时，准确率仅为88%（人类为99.95%）。

CLIP的zero-shot分类器对文本的措辞表现敏感。