Stable Diffusion 3 来了！100% 理解提示词，不仅能生成文字，还涌现出物理能力了？

在文生图领域，Midjourney 像是玩具，而 Stable Diffusion 凭借稳定、可控和高效的能力，一直是最接近可用工具的一款文生图模型。2024年2月22日，stability.ai 发布了 Stable Diffusion 3 早期预览版。这款模型目前还没开放测试。排队链接：https://stability.ai/stablediffusion3

本次更新重点：在图片质量、多主题提示（multi-subject prompts）和单词拼写能力方面有大幅提升；使用了新型扩散变压器（类似于 Sora）并结合了流量匹配和其他改进；模型尺寸从 800m 到 8B 参数，将适用于各种设备的部署；安全贯穿模型训练、测试、评估和部署全过程。虽然现在还没能开放测试，但一些 stability.ai 的员工已经开始在社交媒体晒图了。

Sora 带了一波“好头”。

目前展现出的 Stable Diffusion 3 的表现基本上可以 100% 的还原提示词。马的那幅图，还能看到马踩在球上，球发生了形变。这次更新的一个重点是单词的拼写能力。比如：办公桌上 90 年代台式电脑的照片，电脑屏幕上写着“欢迎”。在背景墙上，我们看到了美丽的涂鸦，“SD3”字样非常醒目。灶台上放着一块刺绣布，上面写着“晚安”和一只刺绣小老虎。

布的旁边有一支点燃的蜡烛。灯光昏暗而富有戏剧性。

不管是屏幕上的显像管效果，还是绣布上面的刺绣效果，虽然在提示词中没有给出明确的提示词，Stable Diffusion 3 也给 welcome、good night 这些文字使用了最合适的效果展现，文字和画面融合堪称完美。之后放出技术细节和开放测试之后，我们也会再上手测试一波，欢迎大家持续关注我们。

不过测试什么的都已经是次要的了，从目前展现出的能力来看，Stable Diffusion 3 已经完全可以当做日常的作图使用。