最强文生图模型！Stable Diffusion 3 技术报告新鲜出炉：结合 DiT，碾压 DALL·E 3 等模型

上个月，Stability AI 发布了其第三代文生图大模型 Stable Diffusion 3。该模型展现出了超越现有文本到图像生成系统的强大性能，为文本到图像生成技术带来了重大突破。今天，Stability AI 终于发布了 Stable Diffusion 3 技术报告，帮助我们一窥 Stable Diffusion 3 背后的技术细节。

众所周知，Stable Diffusion 3 在排版和提示遵循等方面表现出色，超越了 DALL·E 3、Midjourney v6 和 Ideogram v1 等最先进的文本到图像生成系统。与其他开放模型和封闭源系统相比，Stable Diffusion 3 在视觉美观度、提示遵循和排版等方面表现出色。

新的多模态扩散 Transformer（Multimodal Diffusion Transformer，MMDiT）架构使用独立的权重集合来处理图像和语言表示，相比于之前的版本，改善了文本理解和拼写能力。MMDiT 架构结合了 DiT 和矩形流（RF）形式。它使用两个独立的变换器来处理文本和图像嵌入，并在注意力操作中结合两种模态的序列。

MMDiT 架构不仅适用于文本到图像生成，还可以扩展到多模态数据，比如视频。移除内存密集型的 T5 文本编码器可以显著减少 SD3 的内存需求，仅伴随少量性能损失。通过与其他文本到图像生成模型进行性能比较，Stable Diffusion 3 展现出了明显的优势。

在视觉美感、文本遵循和排版等方面，Stable Diffusion 3 都能够超越包括 DALL·E 3、Midjourney v6 和 Ideogram v1 在内的最先进系统。这一优势主要归功于 MMDiT 架构对图像和文本表示的独立处理，使得模型能够更好地理解和表达文本提示，并生成与之匹配的高质量图像。

通过人类评估者提供的例子输出进行比较，Stable Diffusion 3 在视觉美感方面与其他模型相比表现出色。评估者被要求根据图像的美观程度选择最佳结果。结果显示，Stable Diffusion 3 在生成的图像美观度方面优于其他模型。在不同硬件设备上的性能表现方面，Stable Diffusion 3 也展现出了出色的灵活性。

例如，在 RTX 4090 等设备上，最大模型（8B 参数）在进行图像生成时，可以在 34 秒内生成一幅分辨率为 1024x1024 的图像，而且还能够在初期预览阶段提供多种参数模型选择，从 800m 到 8B 参数的模型规模，以进一步消除硬件方面的限制。在消费者级硬件上，Stable Diffusion 3 依然可以有较快的推断速度，并且资源利用率高。

此外，该技术提供了多种模型规模选择，以满足不同用户和应用场景下的需求，增强了其可扩展性和适用性。Stable Diffusion 3 的提出不仅注重了图像生成的质量，还专注于与文本的对齐和一致性。其改进的 Prompt Following 功能使得模型能够更好地理解输入文本并根据其创作图像，而不仅仅是简单地产生图像。

这种灵活性使 Stable Diffusion 3 能够根据不同的输入文本生成多样化的图像，满足不同主题和需求。Stable Diffusion 3 采用了改进的 Rectified Flow（RF）方法，通过线性轨迹将数据和噪声相连接，使得推断路径更直，从而在少量步骤内进行采样。

同时，Stable Diffusion 3 还引入了一种新的轨迹采样调度，将更多的权重分配给轨迹的中间部分，从而改进了预测任务的难度。这种创新的方法改善了模型的性能，并在文本到图像生成任务中取得了更好的效果。在文本到图像生成领域，Stable Diffusion 3 的问世标志着技术的重大进步。

通过 MMDiT 架构的创新、Rectified Flow 的优化以及对硬件设备和模型规模的灵活调整，Stable Diffusion 3 在视觉美感、文本遵循和排版等方面表现出色，超越了当前的文本到图像生成系统。Stable Diffusion 3 的诞生，不仅提高了生成图像的质量和准确性，还为未来的创意产业、个性化内容生成、辅助创作工具以及增强现实和虚拟现实应用等领域带来了新的可能性。

未来，随着这项技术的进一步发展和普及，我们可以期待看到更多创新的应用场景和解决方案。