在文生图领域,Midjourney 像是玩具,而 Stable Diffusion 凭借稳定、可控和高效的能力,一直是最接近可用工具的一款文生图模型。2024年2月22日,stability.ai 发布了 Stable Diffusion 3 早期预览版。这款模型目前还没开放测试。排队链接:https://stability.ai/stablediffusion3
本次更新重点:在图片质量、多主题提示(multi-subject prompts)和单词拼写能力方面有大幅提升;使用了新型扩散变压器(类似于 Sora)并结合了流量匹配和其他改进;模型尺寸从 800m 到 8B 参数,将适用于各种设备的部署;安全贯穿模型训练、测试、评估和部署全过程。虽然现在还没能开放测试,但一些 stability.ai 的员工已经开始在社交媒体晒图了。
Sora 带了一波“好头”。
目前展现出的 Stable Diffusion 3 的表现基本上可以 100% 的还原提示词。马的那幅图,还能看到马踩在球上,球发生了形变。这次更新的一个重点是单词的拼写能力。比如:办公桌上 90 年代台式电脑的照片,电脑屏幕上写着“欢迎”。在背景墙上,我们看到了美丽的涂鸦,“SD3”字样非常醒目。灶台上放着一块刺绣布,上面写着“晚安”和一只刺绣小老虎。
布的旁边有一支点燃的蜡烛。灯光昏暗而富有戏剧性。
不管是屏幕上的显像管效果,还是绣布上面的刺绣效果,虽然在提示词中没有给出明确的提示词,Stable Diffusion 3 也给 welcome、good night 这些文字使用了最合适的效果展现,文字和画面融合堪称完美。之后放出技术细节和开放测试之后,我们也会再上手测试一波,欢迎大家持续关注我们。
不过测试什么的都已经是次要的了,从目前展现出的能力来看,Stable Diffusion 3 已经完全可以当做日常的作图使用。