ChatGPT正式出招了!
出品 | 微果酱(wjam123456)
作者 | 陈出木
起猛了,前天刚和大家唠了一下ChatGPT最近透露出来的多模态信号(戳蓝字可以回顾~),OpenAI第二天就投下了一个重磅炸弹——直接把DALL·E 3抬了上来,炸翻AIGC圈。
估摸着谷歌也被炸了一个猝不及防......
01#
DALL·E 3给ChatGPT带来了什么?
我们先了解一下DALL·E 3是什么,为啥能够让ChatGPT再次震惊世界。
DALL-E系列是OpenAI的文生图工具,上个版本DALL·E 2的推出已经是去年4月的事情了。
根据OpenAI官网对DALL·E 3的说明:
DALL·E 3 understands significantly more nuance and detail than our previous systems, allowing you to easily translate your ideas into exceptionally accurate images.(DALL·E 3比我们以前的系统了解更多的细微差别和细节,使您能够轻松地将您的想法转化为异常准确的图像。)
关键词就是,DALL·E 3能够将用户指令转化成“异常准确的图像”。
OpenAI放出了两个版本生成图片的对比,并表示:
Even with the same prompt, DALL·E 3 delivers significant improvements over DALL·E 2.(即使有同样的提示,DALL·E3也比DALL·E2有显著的改进。)
可以看到,对于相同的prompt“An expressive oil painting of a basketball player dunking, depicted as an explosion of a nebula.(一幅富有表现力的油画,描绘了一名篮球运动员扣篮,被描绘成一个星云的爆炸)”,使用DALL·E 2的左图在准确性和细节表现力上确实比不上使用DALL·E 3的右图。
原本单DALL·E 3的成图效果升级就已经能够引发关注,但OpenAI还把这个工具和大众更熟悉的ChatGPT结合在一起,形成了又一个具有冲击力的成果。
OpenAI是如此总结这一操作的:
DALL·E 3 is built natively on ChatGPT, which lets you use ChatGPT as a brainstorming partner and refiner of your prompts. Just ask ChatGPT what you want to see in anything from a simple sentence to a detailed paragraph.(DALL·E 3是在ChatGPT上原生构建的,它可以让您将ChatGPT用作集思广益的合作伙伴和提示的细化器。只要问ChatGPT你想在任何内容中看到什么,从简单的句子到详细的段落。)
这其实是一个很重磅的更新,意味着——
1、用户可以直接在ChatGPT用上DALL·E 3的文生图功能,不需要切换界面,一步到位进入多模态阶段。
2、ChatGPT将成为一个提示词细化器,能够自动为DALL·E 3生成量身定制的详细提示。这样一来,即便是小白用户,也可以通过ChatGPT将自己的想法或关键词细化成段落的形式,并且是最适合DALL·E 3的提示词,以生成精准图片。
同时,在生成的多个图片结果中,用户如果喜欢某个特定图像,但它还不太正确,可以直接要求ChatGPT通过修改几个字进行调整。
显然,等到这波更新推广出来,AIGC的门槛又要降低一些了。
我们可以看看OpenAI的首席执行官兼联合创始人Sam Altman展示的 生成效果——
首先在ChatGPT输入问题,“我家的5岁孩子一直在说一个’超级向日葵刺猬’,它长什么样?”
ChatGPT反应很快,迅速生成了四段不同风格的提示词以及对应的图片。
当用户选择了其中一张图片,并继续和ChatGPT对话,为小刺猬取名“Larry”,希望ChatGPT画出更多相关的图片。
在ChatGPT提供了更多小刺猬Larry的图片之后,当用户要求看到Larry的房子时,ChatGPT依然生成了符合题意的图片。
这里有两个细节很值得细品:其一,ChatGPT在图文交互情况下对上下文连续性的理解很是准确;其二,图片中的邮箱写上了LARRY的名字。两者都综合展示了DALL·E 3创作一致形象和在图片准确附加文字信息的能力。
用户还可以借助ChatGPT来完善故事情节,ChatGPT毫无压力地自由切换图文形式回答,让Larry的角色设定更加丰满。
面对用户只给出来“kind hearted(善良)”的关键词,ChatGPT也很好地进行理解并完成了生成任务,通过图片中Larry有很多朋友来表现。
再往下,直接要求ChatGPT设计相关贴纸,Larry的形象完全没有崩,效果也很惊艳,甚至还可以直接打印出来。
而面对总结前面对话内容以形成一个完整睡前故事的要求,ChatGPT咔咔一顿操作就创作了一篇童话。
在演示的最后,Larry的“happily dreaming(好梦)”也稳定发挥,完美收官。
通过这次的演示视频,确实可以感受到DALL·E 3和ChatGPT的结合是一大杀器。Sam Altman也在社交平台表达了对这次更新的满意,觉得这个视频非常“CUTE(可爱)”。
要图,DALL·E 3的出图效果可以吊打大部分AI绘图;要文字,ChatGPT的生成式AI水平至今仍是老大。两者放一起,原本难倒一众新手的提示词都不用自己想了,ChatGPT自动生成最匹配DALL·E 3的文段。
无怪乎,DALL·E 3一出来,有网友表示:
DALLE-3 is the best product I've seen since GPT-4, super easy to just get sucked in for hours generating images. (DALLE-3是自GPT-4以来我见过的最好的产品,非常容易在生成图像的几个小时内被吸引。)
强强结合,加上新鲜感,不少人表达了对新功能的看好和期待。OpenAI这一波算是有效战备了,直接把谷歌的多模态大模型Gemini铺垫许久的风头直接盖过。论突袭的闪电战,还得是OpenAI。
02#
还有什么需要知道?
虽然这次的热度让一直以来的AI绘画霸主MidJourney也几乎要暂避锋芒,但实际上还没到我等大众能用上的时候。
按照官方的说法,“DALL·E 3目前正在研究预览中,将于10月通过API和今年秋季晚些时候在实验室向ChatGPT Plus和企业客户提供。”(也并没有说明是否有免费开放版本或何时上线等相关信息)
DALL·E 3 is now in research preview, and will be available to ChatGPT Plus and Enterprise customers in October, via the API and in Labs later this fall.
不过,OpenAI的广告已经打出来了,放了不少样片给大家看看实力。
Sam Altman最喜欢的还是见证了DALL·E系列发展的牛油果,在社交媒体用它介绍了DALL·E 3的登场。
同时,OpenAI透露正在研究识别使用AI创建图像的方法,比如开始试验的内部工具——出处分类器,可以帮助识别图像是否由DALL·E 3生成。
在版权方面,OpenAI表示,商用毫无问题:
As with DALL·E 2, the images you create with DALL·E 3 are yours to use and you don't need our permission to reprint, sell or merchandise them.(与DALL·E2一样,您使用DALL·E3创建的图像归您使用,您不需要我们的许可即可转载、销售或商品化。)
针对这一次突如其来的更新,有人说是OpenAI面对谷歌的高调急了,也有人调侃急的是需要复杂提示词训练的MidJourney。
实际上,这就是我们此前文章中提及的多模态竞争阶段开端,巨头们的发力只是缩影。
混战的高潮尚未真正到来,但已经隐隐可见端倪。有网友将OpenAI此次的动作称为“史诗之战”到来之前的“一个秘密高峰”,很是贴切。
I think DALL·E 3 is not just a stance against MidJourney. It's actually a sneak peak of the upcoming, epic battle of massively multimodal LLMs, against DeepMind Gemini.(我认为DALL·E 3不仅仅是一个反对MidJourney的立场。这实际上是即将到来的大规模多模式LLM与DeepMind Gemini的史诗之战的一个秘密高峰。)
让我们期待这场以日新月异的科技实力硬碰硬的“史诗之战”吧,其必将在世界范围卷起新的变革。
*参考资料:https://openai.com/dall-e-3
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有