ChatGPT 重磅更新,再一次炸翻天,碾压 Midjourney!

ChatGPT 重磅更新,再一次炸翻天,碾压 Midjourney!
2023年09月22日 09:30 微果酱

ChatGPT正式出招了!

出品 | 微果酱(wjam123456)

作者 | 陈出木

起猛了,前天刚和大家唠了一下ChatGPT最近透露出来的多模态信号(戳蓝字可以回顾~),OpenAI第二天就投下了一个重磅炸弹——直接把DALL·E 3抬了上来,炸翻AIGC圈。

估摸着谷歌也被炸了一个猝不及防......

01#

DALL·E 3给ChatGPT带来了什么?

我们先了解一下DALL·E 3是什么,为啥能够让ChatGPT再次震惊世界。

DALL-E系列是OpenAI的文生图工具,上个版本DALL·E 2的推出已经是去年4月的事情了。

根据OpenAI官网对DALL·E 3的说明:

DALL·E 3 understands significantly more nuance and detail than our previous systems, allowing you to easily translate your ideas into exceptionally accurate images.(DALL·E 3比我们以前的系统了解更多的细微差别和细节,使您能够轻松地将您的想法转化为异常准确的图像。)

关键词就是,DALL·E 3能够将用户指令转化成“异常准确的图像”。

OpenAI放出了两个版本生成图片的对比,并表示:

Even with the same prompt, DALL·E 3 delivers significant improvements over DALL·E 2.(即使有同样的提示,DALL·E3也比DALL·E2有显著的改进。)

可以看到,对于相同的prompt“An expressive oil painting of a basketball player dunking, depicted as an explosion of a nebula.(一幅富有表现力的油画,描绘了一名篮球运动员扣篮,被描绘成一个星云的爆炸)”,使用DALL·E 2的左图在准确性和细节表现力上确实比不上使用DALL·E 3的右图。

原本单DALL·E 3的成图效果升级就已经能够引发关注,但OpenAI还把这个工具和大众更熟悉的ChatGPT结合在一起,形成了又一个具有冲击力的成果。

OpenAI是如此总结这一操作的:

DALL·E 3 is built natively on ChatGPT, which lets you use ChatGPT as a brainstorming partner and refiner of your prompts. Just ask ChatGPT what you want to see in anything from a simple sentence to a detailed paragraph.(DALL·E 3是在ChatGPT上原生构建的,它可以让您将ChatGPT用作集思广益的合作伙伴和提示的细化器。只要问ChatGPT你想在任何内容中看到什么,从简单的句子到详细的段落。)

这其实是一个很重磅的更新,意味着——

1、用户可以直接在ChatGPT用上DALL·E 3的文生图功能,不需要切换界面,一步到位进入多模态阶段。

2、ChatGPT将成为一个提示词细化器,能够自动为DALL·E 3生成量身定制的详细提示。这样一来,即便是小白用户,也可以通过ChatGPT将自己的想法或关键词细化成段落的形式,并且是最适合DALL·E 3的提示词,以生成精准图片。

同时,在生成的多个图片结果中,用户如果喜欢某个特定图像,但它还不太正确,可以直接要求ChatGPT通过修改几个字进行调整。

显然,等到这波更新推广出来,AIGC的门槛又要降低一些了。

我们可以看看OpenAI的首席执行官兼联合创始人Sam Altman展示的 生成效果——

首先在ChatGPT输入问题,“我家的5岁孩子一直在说一个’超级向日葵刺猬’,它长什么样?”

ChatGPT反应很快,迅速生成了四段不同风格的提示词以及对应的图片。

当用户选择了其中一张图片,并继续和ChatGPT对话,为小刺猬取名“Larry”,希望ChatGPT画出更多相关的图片。

ChatGPT提供了更多小刺猬Larry的图片之后,当用户要求看到Larry的房子时,ChatGPT依然生成了符合题意的图片。

这里有两个细节很值得细品:其一,ChatGPT在图文交互情况下对上下文连续性的理解很是准确;其二,图片中的邮箱写上了LARRY的名字。两者都综合展示了DALL·E 3创作一致形象和在图片准确附加文字信息的能力。

用户还可以借助ChatGPT来完善故事情节,ChatGPT毫无压力地自由切换图文形式回答,让Larry的角色设定更加丰满。

面对用户只给出来“kind hearted(善良)”的关键词,ChatGPT也很好地进行理解并完成了生成任务,通过图片中Larry有很多朋友来表现。

再往下,直接要求ChatGPT设计相关贴纸,Larry的形象完全没有崩,效果也很惊艳,甚至还可以直接打印出来。

而面对总结前面对话内容以形成一个完整睡前故事的要求,ChatGPT咔咔一顿操作就创作了一篇童话。

在演示的最后,Larry的“happily dreaming(好梦)”也稳定发挥,完美收官。

通过这次的演示视频,确实可以感受到DALL·E 3和ChatGPT的结合是一大杀器。Sam Altman也在社交平台表达了对这次更新的满意,觉得这个视频非常“CUTE(可爱)

要图,DALL·E 3的出图效果可以吊打大部分AI绘图;要文字,ChatGPT的生成式AI水平至今仍是老大。两者放一起,原本难倒一众新手的提示词都不用自己想了,ChatGPT自动生成最匹配DALL·E 3的文段。

无怪乎,DALL·E 3一出来,有网友表示:

DALLE-3 is the best product I've seen since GPT-4, super easy to just get sucked in for hours generating images. (DALLE-3是自GPT-4以来我见过的最好的产品,非常容易在生成图像的几个小时内被吸引。)

强强结合,加上新鲜感,不少人表达了对新功能的看好和期待。OpenAI这一波算是有效战备了,直接把谷歌的多模态大模型Gemini铺垫许久的风头直接盖过。论突袭的闪电战,还得是OpenAI。

02#

还有什么需要知道?

虽然这次的热度让一直以来的AI绘画霸主MidJourney也几乎要暂避锋芒,但实际上还没到我等大众能用上的时候。

按照官方的说法,“DALL·E 3目前正在研究预览中,将于10月通过API和今年秋季晚些时候在实验室向ChatGPT Plus和企业客户提供。”(也并没有说明是否有免费开放版本或何时上线等相关信息)

DALL·E 3 is now in research preview, and will be available to ChatGPT Plus and Enterprise customers in October, via the API and in Labs later this fall.

不过,OpenAI的广告已经打出来了,放了不少样片给大家看看实力。

Sam Altman最喜欢的还是见证了DALL·E系列发展的牛油果,在社交媒体用它介绍了DALL·E 3的登场。

同时,OpenAI透露正在研究识别使用AI创建图像的方法,比如开始试验的内部工具——出处分类器,可以帮助识别图像是否由DALL·E 3生成。

在版权方面,OpenAI表示,商用毫无问题

As with DALL·E 2, the images you create with DALL·E 3 are yours to use and you don't need our permission to reprint, sell or merchandise them.(与DALL·E2一样,您使用DALL·E3创建的图像归您使用,您不需要我们的许可即可转载、销售或商品化。

针对这一次突如其来的更新,有人说是OpenAI面对谷歌的高调急了,也有人调侃急的是需要复杂提示词训练的MidJourney。

实际上,这就是我们此前文章中提及的多模态竞争阶段开端,巨头们的发力只是缩影。

混战的高潮尚未真正到来,但已经隐隐可见端倪。有网友将OpenAI此次的动作称为“史诗之战”到来之前的“一个秘密高峰”,很是贴切。

I think DALL·E 3 is not just a stance against MidJourney. It's actually a sneak peak of the upcoming, epic battle of massively multimodal LLMs, against DeepMind Gemini.(我认为DALL·E 3不仅仅是一个反对MidJourney的立场。这实际上是即将到来的大规模多模式LLM与DeepMind Gemini的史诗之战的一个秘密高峰。)

让我们期待这场以日新月异的科技实力硬碰硬的“史诗之战”吧,其必将在世界范围卷起新的变革。

*参考资料:https://openai.com/dall-e-3

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部