Stable Diffusion 3 API发布，号称性能碾压碾压Midjourney DALL·E，普通用户免费用_

文｜李然

编辑｜苏建勋

虽然总裁辞职了，核心团队跳槽了，但是Stability AI仍然在发货。

图源：X

昨天夜里，Stability AI正式发布了Stable Diffusion 3 API，在SD3的技术报告公布几个月之后，用户终于可以上手试用了。

但可惜的是，完全开源的SD3模型依然还在路上，不过他们承诺，对于普通用户，SD3模型不会收费。

图源：X

现在，用户可以通过Fireworks AI访问SD3的API。

图源：X

根据SD3技术报告，SD3相比DALL·E 3和Midjourney，能够更好地遵循用户提示。

来源：官网

SD 3新的多模态扩散变压器 (MMDiT) 架构对图像和语言表示使用单独的权重集，与之前版本的稳定扩散相比，它提高了文本理解和拼写能力。

图源：X

可以看到，用户可以非常精准地控制需要出现在图片中地文字内容。

图源：X

新模型生成的逼真图片，足以以假乱真。

Prompt: Portrait photograph of ananthropomorphic tortoise seated on a New York City subway train. 图源：X

对于完全虚构的图片也能做到美学和细节真实度的统一。

Prompt: Aesthetic pastel magical realism, a manwith a retro TV for a head, standing in the centerof the desert, vintage photo. 图源：X

调用API，网友用SD和ChatGPT做了一个小游戏。

图源：X

在他看来，SD3能比DALL·E有更好的风格一致性，对于生成一个系统工程中的美术素材表现得更好。

网友也分享更多用SD3生成的作品。

图源：X

可以看到，如果对于图片内容中的文字有明确要求，SD3是为数不多能满足要求的模型。

图源：X

机器人的手似乎也没有瑕疵了。

图源：X

人物面部的细节非常真实。

图源：X

狮头机器人。

图源：X

机械风的中国龙造型也是细节满满，惟妙惟肖。

图源：X

很多调用SD3 API的APP也在Stability AI官推下面，用SD3生成的图片给自己的API打起了广告。

模型核心构架

SD3的核心技术在于StabilityAI 开发的MMDiT技术。

来源：官网

模型使用三种不同的文本嵌入器（两个 CLIP 模型和 T5）来编码文本表示，并使用改进的自动编码模型来编码图像token。

而这个构架的核心，采用的是和Sora一样的DiT技术。

由于文本和图像嵌入在概念上完全不同，因此他们对这两种模式使用两组独立的权重。如上图所示，这相当于每种模态都有两个独立的转换器，但是将两种模态的序列连接起来进行注意力操作，这样两种表征都可以在自己的空间中工作，同时考虑另一种表征。

在这样的特殊安排之下，MMDiT的性能超越了传统的UViT或者DiT本身。

通过使用这种方法，信息可以在图像和文本标记之间流动，以提高生成的输出中的整体理解和排版。这种架构还可以轻松扩展到视频等多种模式。

得益于SD3改进的提示跟随功能，模型能够创建专注于各种不同主题和质量的图像，同时对图像本身的风格保持高度灵活性。

来源：官网

头条号入驻

36氪 36氪（36Kr.com）是中国领先的科技新媒体，报道最新的互联网科技新闻以及最有潜力的互联网创业企业。

财经自媒体联盟更多自媒体作者

今日推荐优秀作者看点月榜

新浪财经头条意见反馈留言板

4000520066 欢迎批评指正

Stable Diffusion 3 API发布，号称性能碾压碾压Midjourney DALL·E，普通用户免费用

头条号入驻

行李收费，餐食缩水，传统航司也成「刺客」了

焦点分析｜曹操出行交表，但依旧前路迷茫

五一前夜，中国游客已经买爆日本

财经自媒体联盟更多自媒体作者

热文排行榜