GPT-5来了？OpenAI 最新大模型被曝光！_

大模型混战又要开始神仙打架了？

出品 | 微果酱（wjam123456）

作者 | 陈出木

最近一段时间，谷歌的AI大模型进展吸引了不少关注。

但在大家都搓着手，试图等着看谷歌如何逆风翻盘的时候，AI大模型领域的霸主OpenAI再次传来重磅消息。

根据外媒The Information的报道，OpenAI即将推出多模态模型GPT-Vision，文章标题毫不客气地表明这是用来回击谷歌的。

虽然新版本还没有真正来，但是已经足以让我们窥见这个赛道的下一阶段竞争重点——多模态。

01#

“GPT-5”进展到哪一步了？

根据The Information的爆料，OpenAI正准备在GPT-4的基础上推出图像理解功能GPT-Vision。这相当于是在给GPT-4叠buff，挤牙膏式地完善它，反正目前公认的AI一把手还得是GPT-4。

此外，报道中还提到，OpenAI可能在GPT-Vision之后推出代号为“Gobi”的大模型。和GPT-4不同，所谓“更强大的”Gobi从一开始就是按照多模态模型去构建的。

外界把这个全新的大模型锁定为GPT-5的有力候选，因为大部分人并不相信此前OpenAI的首席执行官兼联合创始人Sam Altman在麻省理工学院活动中的辟谣：

我们现在没有训练，短期内也不会训练GPT-5。

Sam Altman在麻省理工学院回应GPT-5传闻

毕竟当时这段表态主要还是用来回应公开信《暂停AI巨型实验》。3月29日，包括特斯拉CEO埃隆·马斯克、苹果联合创始人Steve Wozniak、图灵奖得主Yoshua Bengio在内的数千位科技界人士联名呼吁，在6个月内暂停开发比GPT-4更为强大的AI系统，以留出时间解决AI的安全与伦理问题。

就在本月初，DeepMind联合创始人、现Inflection AI的CEO Mustafa Suleyman在一次访谈中表示自己认为OpenAI正在秘密训练GPT-5。Suleyman把多数人心里的猜测摆到了台面上，压力重新给到了OpenAI。

截图自访谈节目《CEO of Inflection AI Mustafa Suleyman on risks of artificial intelligence》

不过现在谈论GPT-5或许还是太早了，因为OpenAI至今没有对相关消息作出回应。除了代号Gobi的全新大模型有可能是传言中的GPT-5，其余我们一概不知。甚至根据外媒消息，OpenAI似乎还没有开始训练Gobi。

相对来说，GPT-Vision的情况更加有迹可循。

目前有不少人猜测，GPT-Vision很可能是此前就在GPT-4的3月发布会上演示过的多模态功能。当时的GPT-4仅根据一张简单的手写草图就生成了网页代码，震惊全世界。

3月GPT-4发布会上的演示过程

但在一时惊艳之后，除了提供给一家为盲人创造技术的公司Be My Eyes之外，功能更新和实际使用中都再没有这方面的信息，包括文生图等功能。

其原因或许可以从《纽约时报》7月的一篇报道中推断，OpenAI担心该功能可能被滥用于面部识别等方面。再结合Sam Altman此前辟谣时提及的，“OpenAI正在解决公开信中忽略的基于GPT-4的各种安全问题。”相关的安全顾虑或许已经有了解决方式。

也意味着，这种屏蔽很可能要迎来放开了。

按照The Information的说法，OpenAI希望以“GPT-Vision”的名义更广泛地提供图像理解，将为GPT-4打开许多新的基于图像的应用程序，例如生成匹配图片的文本等。

同时，还有传言称DALL-E 3也在开发中，可能会集成到ChatGPT或GPT-4中。其与GPT-Vision都可能在11月6日的OpenAI开发者大会上公布，因为OpenAI首席执行官Sam Altman曾经如此说道：

将会有“伟大的东西”，尽管没有GPT-4.5或GPT-5那么大。

总的来说，虽然GPT-5还没来，但GPT-4要发力多模态，新一轮AI刷新科技观的热潮或许不远了。

02#

OpenAI和谷歌较上劲了

在这次对OpenAI新动作的报道中，中外媒体观点出奇一致，基本都认为是冲着谷歌的Gemini去的。

根据媒体9月14日援引三位直接知情人士消息称，谷歌已向一小部分公司提供了Gemini的早期版本，通过公司的云计算服务出售给企业，意味着谷歌考虑将其纳入消费者服务，Gemini的发布或许在即。

Gemini被称为谷歌的集大成之作，从今年4月就一直隐隐有消息传出，项目的参与者包括了原DeepMind创始人Demis Hassabis等大牛，谷歌创始人Segey Brin也亲自加入对Gemini的训练。

上个月底，SemiAnalysis的分析师Dylan Patel和Daniel Nishball曝光了更多相关消息。

根据现有信息，我们能够对Gemini有以下的认知：

1、初代Gemini应该是在TPUv4上训练的，且选择使用较少的芯片数量，以保证芯片的可靠性和热插拔。目前其已开始在TPUv5 Pod上训练，算力比训练GPT-4的要大 5 倍。

2、Gemini的训练数据库为Youtube上93.6亿分钟的视频字幕，总数据集大小约为GPT-4的两倍。

3、Gemini由一组大型语言模型组成，可能使用MOE架构与投机采样技术，通过小模型提前生成token传输至大模型评估，提高总推理速度。

4、Gemini支持聊天机器人、总结文本或生成原始文本（如电子邮件草稿、歌词或新闻文章）、生成原始图片等功能。

5、Gemini支持帮助工程师编写代码，谷歌希望其提高开发人员的代码生成能力，以追赶微软的GitHub Copilot代码助手，后者依赖于OpenAI。

6、谷歌员工还讨论过利用Gemini来实现图表分析等功能，比如要求模型解释图表的含义，及使用文本或语音指令来浏览网页或其他软件。

7、Gemini有不同大小版本，支持开发者购买简化版处理简单任务，足够小的版本可以在个人终端运行。

值得注意的是，相比GPT-4，Gemini有一个优势——除了网络公共信息外，还可以利用谷歌从其消费产品中获取大量专有数据。因此，有相关人士认为：

该模型在理解用户对特定查询的意图时应该会特别准确，而且它似乎会产生较少的错误答案（即幻觉）。

尽管Gemini还没有真正登场，但已经有不少人表达了看好。在前面提及的Dylan Patel和Daniel Nishball的文章中，也有类似的观点：

The statement that may not be obvious is that the sleeping giant, Google has woken up, and they are iterating on a pace that will smash GPT-4 total pre-training FLOPS by 5x before the end of the year.（可能不太明显的说法是，沉睡的巨人Google已经苏醒，他们正在迭代，将在年底前将GPT-4预训练总FLOPS提高5倍。）