凌晨重磅!谷歌、OpenAI接连发布!

凌晨重磅!谷歌、OpenAI接连发布!
2025年03月26日 15:39 数据观资讯平台

GPT-4o

3月26日凌晨,在谷歌发布Gemini 2.5 Pro模型仅一小时后,OpenAI创始人兼CEO萨姆·阿尔特曼(Sam Altman)紧急开启直播,推出全新GPT-4o原生图像生成技术。

编辑 |  数据君

3月26日凌晨,科技圈上演了一场“双雄对决”。在谷歌发布Gemini 2.5 Pro模型仅一小时后,OpenAI创始人兼CEO Sam Altman紧急开启直播,推出全新GPT-4o原生图像生成技术,并宣布该功能即日起向所有ChatGPT Plus、Pro、Team及免费用户开放,企业版和教育版即将接入。

有趣的是,最近半年时间里,基本上谷歌的每次发布都会与 OpenAI 的直播“撞车”。

谷歌 Gemini 2.5 Pro:多模态升级,展现卓越性能

3月26日凌晨,谷歌正式推出新一代人工智能推理模型Gemini 2.5,该模型基于多模态大语言框架升级,显著增强了推理能力、多语言支持及长文本处理能力。

据官方介绍,Gemini 2.5通过优化算法架构,将响应速度提升40%,能耗降低25%。在关键指标测试中,其复杂逻辑任务完成度较前代提升65%,尤其在医疗诊断辅助、法律文书生成等垂直领域展现出更高精度。Gemini 2.5 Pro支持文本、图像、音频、视频及代码的多模态输入,上下文窗口达100万token(约75万单词),可解析完整《指环王》系列文本,未来将升级至200万token。

OpenAI GPT-4o:原生图像生成,打造创作新体验

与以往扩散模型(如DALL·E)不同,GPT-4o图像生成是首个原生嵌入ChatGPT的自回归模型,通过联合训练图像与文本数据,实现更自然的上下文感知能力。其核心亮点包括:

  • 多模态无缝衔接:支持文本、图像、音频混合输入输出,用户可通过对话迭代优化设计。例如,上传猫咪图片后添加“侦探帽和单片眼镜”,即可生成游戏角色原型,并在后续对话中调整场景细节。

  •  超强文本渲染:精准生成手写文字、菜单价格、信息图表等实用内容,甚至能绑定10-20个物体的属性,避免传统模型常见的混淆问题。

  •  真实感与知识融合:结合内置知识库生成符合物理规律的第一人称视角图像,如旧金山雾气成因的可视化图表。

GI梗图现场直出,奥特曼成“最强代言人

直播中,阿尔特曼亲自演示了GPT-4o的“玩梗”能力:他上传自拍照后,模型瞬间生成了一张包含“Feel The AGI”文字的动漫风格表情包,人物倒影、背景细节均精准还原,甚至结合了海湾大桥等复杂场景。

体验链接:https://chatgpt.com/

此外,GPT-4o还展示了生成“相对论科普漫画”的能力——通过模糊的提示词,模型自主调用世界知识库,输出兼具幽默与教育意义的图像,令观众惊叹其“创造力”。

AI竞赛白热化:OpenAI与谷歌的对决

尽管GPT-4o在生成质量上实现突破,但其渲染时间较此前模型更长(约1分钟),且存在多概念呈现不一致、人脸编辑瑕疵等问题。OpenAI承诺将在一周内修复人脸编辑功能,并通过多重安全策略(如提示词过滤、CSAM屏蔽)降低滥用风险。

面对谷歌Gemini 2.5 Pro的百万级上下文窗口优势,OpenAI选择以“免费+全用户覆盖”策略抢占市场。目前,开发者可通过API调用GPT-4o图像功能,未来还将扩展至电商、教育课件、游戏设计等场景。

正如阿尔特曼所言:“创作的自由应交给用户,而社会将决定AI的边界。”这场技术盛宴,既是OpenAI与谷歌的巅峰对决,也预示着多模态AI将重塑人类表达与创造的方式。  

18条评论|32人参与网友评论
最热评论
Deepseek不出手,感觉其他家伙都没啥戏,Deepseek一出手,它们倒是突然活跃起来了
3月27日00:21举报4回复
大家都在夸Deepseek的时候,人家已经开始布局下一个领域了
3月27日00:23举报3回复
DP要是不开源的话,这些好东西得被资本捂多久才能出来啊?开放前又会赚咱们多少钱都不知道
3月27日00:22举报3回复
最新评论
艾洛瑞上海
Gemini 2.5 Pro的推理能力确实很强,不过在逻辑题上出了点状况,感觉像是把河对岸的船给划到自己家后院去了,有点迷糊
3月27日01:11举报回复
我就是来看看网友们都是怎么说的
3月27日00:27举报回复
人类的手指问题是目前AI的一大难题
3月27日00:27举报回复

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部