ChatGPT 重磅更新，再一次炸翻天，碾压 Midjourney！_

ChatGPT正式出招了！

出品 | 微果酱（wjam123456）

作者 | 陈出木

起猛了，前天刚和大家唠了一下ChatGPT最近透露出来的多模态信号（戳蓝字可以回顾~），OpenAI第二天就投下了一个重磅炸弹——直接把DALL·E 3抬了上来，炸翻AIGC圈。

估摸着谷歌也被炸了一个猝不及防......

01#

DALL·E 3给ChatGPT带来了什么？

我们先了解一下DALL·E 3是什么，为啥能够让ChatGPT再次震惊世界。

DALL-E系列是OpenAI的文生图工具，上个版本DALL·E 2的推出已经是去年4月的事情了。

根据OpenAI官网对DALL·E 3的说明：

DALL·E 3 understands significantly more nuance and detail than our previous systems, allowing you to easily translate your ideas into exceptionally accurate images.（DALL·E 3比我们以前的系统了解更多的细微差别和细节，使您能够轻松地将您的想法转化为异常准确的图像。）

关键词就是，DALL·E 3能够将用户指令转化成“异常准确的图像”。

OpenAI放出了两个版本生成图片的对比，并表示：

Even with the same prompt, DALL·E 3 delivers significant improvements over DALL·E 2.（即使有同样的提示，DALL·E3也比DALL·E2有显著的改进。）

可以看到，对于相同的prompt“An expressive oil painting of a basketball player dunking, depicted as an explosion of a nebula.（一幅富有表现力的油画，描绘了一名篮球运动员扣篮，被描绘成一个星云的爆炸）”，使用DALL·E 2的左图在准确性和细节表现力上确实比不上使用DALL·E 3的右图。

原本单DALL·E 3的成图效果升级就已经能够引发关注，但OpenAI还把这个工具和大众更熟悉的ChatGPT结合在一起，形成了又一个具有冲击力的成果。

OpenAI是如此总结这一操作的：

DALL·E 3 is built natively on ChatGPT, which lets you use ChatGPT as a brainstorming partner and refiner of your prompts. Just ask ChatGPT what you want to see in anything from a simple sentence to a detailed paragraph.（DALL·E 3是在ChatGPT上原生构建的，它可以让您将ChatGPT用作集思广益的合作伙伴和提示的细化器。只要问ChatGPT你想在任何内容中看到什么，从简单的句子到详细的段落。）

这其实是一个很重磅的更新，意味着——

1、用户可以直接在ChatGPT用上DALL·E 3的文生图功能，不需要切换界面，一步到位进入多模态阶段。

2、ChatGPT将成为一个提示词细化器，能够自动为DALL·E 3生成量身定制的详细提示。这样一来，即便是小白用户，也可以通过ChatGPT将自己的想法或关键词细化成段落的形式，并且是最适合DALL·E 3的提示词，以生成精准图片。

同时，在生成的多个图片结果中，用户如果喜欢某个特定图像，但它还不太正确，可以直接要求ChatGPT通过修改几个字进行调整。

显然，等到这波更新推广出来，AIGC的门槛又要降低一些了。

我们可以看看OpenAI的首席执行官兼联合创始人Sam Altman展示的生成效果——

首先在ChatGPT输入问题，“我家的5岁孩子一直在说一个’超级向日葵刺猬’，它长什么样？”

ChatGPT反应很快，迅速生成了四段不同风格的提示词以及对应的图片。

当用户选择了其中一张图片，并继续和ChatGPT对话，为小刺猬取名“Larry”，希望ChatGPT画出更多相关的图片。

在ChatGPT提供了更多小刺猬Larry的图片之后，当用户要求看到Larry的房子时，ChatGPT依然生成了符合题意的图片。

这里有两个细节很值得细品：其一，ChatGPT在图文交互情况下对上下文连续性的理解很是准确；其二，图片中的邮箱写上了LARRY的名字。两者都综合展示了DALL·E 3创作一致形象和在图片准确附加文字信息的能力。

用户还可以借助ChatGPT来完善故事情节，ChatGPT毫无压力地自由切换图文形式回答，让Larry的角色设定更加丰满。

面对用户只给出来“kind hearted（善良）”的关键词，ChatGPT也很好地进行理解并完成了生成任务，通过图片中Larry有很多朋友来表现。

再往下，直接要求ChatGPT设计相关贴纸，Larry的形象完全没有崩，效果也很惊艳，甚至还可以直接打印出来。

而面对总结前面对话内容以形成一个完整睡前故事的要求，ChatGPT咔咔一顿操作就创作了一篇童话。

在演示的最后，Larry的“happily dreaming（好梦）”也稳定发挥，完美收官。

通过这次的演示视频，确实可以感受到DALL·E 3和ChatGPT的结合是一大杀器。Sam Altman也在社交平台表达了对这次更新的满意，觉得这个视频非常“CUTE（可爱）”。

要图，DALL·E 3的出图效果可以吊打大部分AI绘图；要文字，ChatGPT的生成式AI水平至今仍是老大。两者放一起，原本难倒一众新手的提示词都不用自己想了，ChatGPT自动生成最匹配DALL·E 3的文段。

无怪乎，DALL·E 3一出来，有网友表示：

DALLE-3 is the best product I've seen since GPT-4, super easy to just get sucked in for hours generating images. （DALLE-3是自GPT-4以来我见过的最好的产品，非常容易在生成图像的几个小时内被吸引。）

强强结合，加上新鲜感，不少人表达了对新功能的看好和期待。OpenAI这一波算是有效战备了，直接把谷歌的多模态大模型Gemini铺垫许久的风头直接盖过。论突袭的闪电战，还得是OpenAI。

02#

还有什么需要知道？

虽然这次的热度让一直以来的AI绘画霸主MidJourney也几乎要暂避锋芒，但实际上还没到我等大众能用上的时候。

按照官方的说法，“DALL·E 3目前正在研究预览中，将于10月通过API和今年秋季晚些时候在实验室向ChatGPT Plus和企业客户提供。”（也并没有说明是否有免费开放版本或何时上线等相关信息）

DALL·E 3 is now in research preview, and will be available to ChatGPT Plus and Enterprise customers in October, via the API and in Labs later this fall.

不过，OpenAI的广告已经打出来了，放了不少样片给大家看看实力。

Sam Altman最喜欢的还是见证了DALL·E系列发展的牛油果，在社交媒体用它介绍了DALL·E 3的登场。

同时，OpenAI透露正在研究识别使用AI创建图像的方法，比如开始试验的内部工具——出处分类器，可以帮助识别图像是否由DALL·E 3生成。

在版权方面，OpenAI表示，商用毫无问题：

As with DALL·E 2, the images you create with DALL·E 3 are yours to use and you don't need our permission to reprint, sell or merchandise them.（与DALL·E2一样，您使用DALL·E3创建的图像归您使用，您不需要我们的许可即可转载、销售或商品化。）

针对这一次突如其来的更新，有人说是OpenAI面对谷歌的高调急了，也有人调侃急的是需要复杂提示词训练的MidJourney。

实际上，这就是我们此前文章中提及的多模态竞争阶段开端，巨头们的发力只是缩影。

混战的高潮尚未真正到来，但已经隐隐可见端倪。有网友将OpenAI此次的动作称为“史诗之战”到来之前的“一个秘密高峰”，很是贴切。

I think DALL·E 3 is not just a stance against MidJourney. It's actually a sneak peak of the upcoming, epic battle of massively multimodal LLMs, against DeepMind Gemini.（我认为DALL·E 3不仅仅是一个反对MidJourney的立场。这实际上是即将到来的大规模多模式LLM与DeepMind Gemini的史诗之战的一个秘密高峰。）