Stable Diffusion 3 来了!100% 理解提示词,不仅能生成文字,还涌现出物理能力了?

作者: 硅星人Pro

来源: 硅星人Pro

发布日期: 2024-02-26 20:00:53

Stable Diffusion 3 是文生图领域的一款重要模型,于2024年2月22日发布早期预览版。该模型在图片质量、多主题提示和单词拼写能力方面有显著提升,并采用了新型扩散变压器技术。目前,该模型能够100%还原提示词,并展现出物理能力,如马踩在球上导致球形变。此外,模型在文字和画面的融合上表现出色,未来将开放测试并持续更新。

在文生图领域,Midjourney 像是玩具,而 Stable Diffusion 凭借稳定、可控和高效的能力,一直是最接近可用工具的一款文生图模型。2024年2月22日,stability.ai 发布了 Stable Diffusion 3 早期预览版。这款模型目前还没开放测试。排队链接:https://stability.ai/stablediffusion3

本次更新重点:在图片质量、多主题提示(multi-subject prompts)和单词拼写能力方面有大幅提升;使用了新型扩散变压器(类似于 Sora)并结合了流量匹配和其他改进;模型尺寸从 800m 到 8B 参数,将适用于各种设备的部署;安全贯穿模型训练、测试、评估和部署全过程。虽然现在还没能开放测试,但一些 stability.ai 的员工已经开始在社交媒体晒图了。

Sora 带了一波“好头”。

目前展现出的 Stable Diffusion 3 的表现基本上可以 100% 的还原提示词。马的那幅图,还能看到马踩在球上,球发生了形变。这次更新的一个重点是单词的拼写能力。比如:办公桌上 90 年代台式电脑的照片,电脑屏幕上写着“欢迎”。在背景墙上,我们看到了美丽的涂鸦,“SD3”字样非常醒目。灶台上放着一块刺绣布,上面写着“晚安”和一只刺绣小老虎。

布的旁边有一支点燃的蜡烛。灯光昏暗而富有戏剧性。

不管是屏幕上的显像管效果,还是绣布上面的刺绣效果,虽然在提示词中没有给出明确的提示词,Stable Diffusion 3 也给 welcome、good night 这些文字使用了最合适的效果展现,文字和画面融合堪称完美。之后放出技术细节和开放测试之后,我们也会再上手测试一波,欢迎大家持续关注我们。

不过测试什么的都已经是次要的了,从目前展现出的能力来看,Stable Diffusion 3 已经完全可以当做日常的作图使用。

UUID: b18ed8ba-8d8a-4515-b3df-b40455bff828

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/果壳公众号-pdf2txt/2024/果壳_2024-02-26_Stable Diffusion 3来了!100%理解提示词,不仅能生成文字,还涌现出物理能力了?.txt

是否为广告: 否

处理费用: 0.0033 元