OpenAI终于再次开放了他们的技术。在看到OpenAI刚刚发布的DALL-E 3相关论文后,一位网友感叹说。DALL-E 3是OpenAI在2023年9月份发布的一个文生图模型。与上一代模型DALL-E 2最大的区别在于,它可以利用ChatGPT生成提示,然后让模型根据该提示生成图像。对于不擅长编写提示的普通人来说,这一改进大大提高了DALL-E 3的使用效率。
此外,与DALL-E 2相比,DALL-E 3生成的图质量也更高。DALL-E 3的发布引发了不小的轰动,也再次巩固了OpenAI技术领头羊的形象。一时间,所有人都很好奇,这么炸裂的效果是怎么做到的?不过,令人失望的是,当时OpenAI并没有透露技术细节。不过,一个月后,OpenAI还是给了大家一些惊喜。在一份篇幅达22页的论文中,他们阐述了针对DALL-E 3所做的改进。
论文要点包括:模型能力的提升主要来自于详尽的图像文本描述;他们训练了一个图像文本描述模型来生成简短而详尽的文本;他们使用了T5文本编码器;他们使用了GPT-4来完善用户写出的简短提示;他们训练了一个U-net解码器,并将其蒸馏成2个去噪步骤;文本渲染仍然不可靠,他们认为该模型很难将单词token映射为图像中的字母。
除了论文之外,OpenAI还公布了一个重要消息:DALL-E 3已经正式上线ChatGPT,Plus用户和Enterprise用户都可以使用。为了保证DALL-E 3输出内容的安全性和合规性,OpenAI也做了一些努力,确保模型输出的内容是被检查过的,而且不侵犯在世艺术家的版权。当然,要了解DALL-E 3背后的技术,还是要详细阅读论文。
以下是论文介绍:OpenAI发布的DALL-E 3相关论文总共有19页,作者共有15位,半数为华人,分别来自OpenAI和微软。论文地址:https://cdn.openai.com/papers/dall-e-3.pdf。论文提出了一个解决提示跟随问题的新方法:文本描述改进。本文假设现有的文本-图像模型面临的一个基本问题是:训练数据集中的文本-图像对的质量较差,这一问题在其他研究中已经被指出。
本文建议通过为数据集中的图像生成改进的文本描述来解决这个问题。为了达到这一目标,该研究首先学习了一个具有稳健性的图像文本生成器,它可以生成详细、准确的图像描述。然后,将此文本生成器应用到数据集以生成更详细的文本。最终在改进的数据集上训练文本-图像模型。其实,用合成数据进行训练并不是一个全新的概念。
本文的贡献主要在于研究者构建了一个新颖的具有描述性的图像文本系统,并对用合成文本训练生成的模型进行了评估。该研究还为一系列评估建立了一个可重复的基准性能概要文件,这些评估用于测量提示执行的情况。在接下来的章节中,第2节对训练图像文本生成器的策略进行了全面概述,第3节对在原始文本和生成文本上训练的文本到图像模型进行了评估,第4节对DALL-E 3进行了评估,第5节讨论了限制和风险。