OpenAI谷歌鏖战正酣,AI风口为何紧抓不放?

OpenAI谷歌鏖战正酣,AI风口为何紧抓不放?
2024年03月05日 15:07 ChinaByte比特网

如今,AI赛道的火热,可以直接从致力于大模型研发的企业数量、大模型从文本生成向文生图/文生视频的进化、上游AI算力需求激增,以及英伟达与英特尔在AI芯片方面的角逐感受得到。在笔者看来,AI爆火所衍生出来的产业链,发展得如火如荼,竞争更是可以用“激战正酣”来形容。

2024年科技领域也上演了一场《热辣滚烫》,在AI领域,OpenAI与谷歌你追我赶,鏖战正酣:

北京时间2月16日凌晨2点,OpenAI正式发布其首个文本-视频生成模型Sora。该模型通过简短或详细的提示词描述,或一张静态图片,Sora就能生成类似电影的逼真场景,并且涵盖多个角色、不同类型动作和背景细节等,最高能生成1分钟左右的1080P高清视频。Sora被OpenAI认为是实现通用人工智能(AGI)的重要里程碑。 

 Sora生成的视频

就在Sora发布的前一天夜里,谷歌也突然升级Gemini系列模型,并发布用于早期测试的Gemini第一个版本——Gemini 1.5 Pro。该大模型采用稀疏MOE架构,配备了128000个token上下文窗口,性能和长文本都超过了GPT-4 Turbo。谷歌表示,开发者可以通过AI Studio和Vertex AI获得1.5 Pro的有限预览,其中有12.8万token上下文窗口,稍后可扩展到100万token。

熟悉OpenAI与谷歌的都知道,在AI领域,二者的激战已成为日常,就在Gemini 1.5 Pro发布前不久,谷歌也刚刚发布了Gemini 1.0版本。

追赶与反击,在“较劲”中发展

这一切还得从生成式AI的爆火说起。随着生成式AI的爆火,OpenAI的ChatGPT、微软的Bing Chat给予谷歌巨大的危机感,Google Bard的发布,让谷歌加入这场生成式AI的角逐。其中,ChatGPT和Bing Chat背后的模型是OpenAI的GPT模型,Google Bard是基于谷歌的LaMDA模型。这三个AI产品的问世,也拉开了“谁是最好AI模型”的争夺。

时间来到5月份的2023谷歌I/O开发者大会上,彼时,谷歌公布一系列与生成式AI相关的进展,涉及全新大模型、AI聊天机器人、搜索、办公软件、云服务、安卓系统等,并透露新一代语言模型PaLM 2擅长多语言翻译、推理、编程,部分测试表现超过GPT-4,共有4种规格,最轻量级可部署于移动设备,同时,多模态大模型Gemini正在训练中。

2023年底,就在谷歌首次透露Gemini的7个月之后,谷歌正式发布Gemini 1.0,被称为谷歌迄今为止构建的最强大、最通用、最灵活的模型,根据使用场景的不同分为Gemini Ultra、Gemini Pro、Gemini Nano等版本。然而,Gemini 1.0并没有坚持多长时间,Gemini第一个版本——Gemini 1.5 Pro正式发布。 

在谷歌进行版本更新的同时,OpenAI也快马加鞭,从GPT-3.5到GPT-4,再到文生视频大模型Sora,OpenAI大模型迎来持续进化,Sora也被认为是继GPT、DALL·E之后,2024年OpenAI发布的旗下最新、最重要的AI产品系列。 

更为重磅的是,谷歌发布基础世界模型——Genie(精灵)。这是一个110亿参数的基础世界模型,可以通过单张图像提示生成可玩的交互式环境,可以利用互联网视频训练的基础世界模型,从合成图像、照片甚至素描中生成无限多的可玩(可控制动作的)世界。

抢先布局,AI营造的角斗场

尤其是,整个AI市场呈现出来的是高手对决的场景,而在不断地新技术、新模型发布过程中,也正是展现技术实力的时刻,这也足以吸引大众和资本市场的目光。

在与OpenAI的竞争中,谷歌也终于发现,其在生态层面有着巨大优势,那就是在与OpenAI竞争中,战场应该扩展至手机、APP、应用平台、办公套件、云服务等多个维度。 

当然除了技术强硬的OpenAI、生态较为完善的骨骼外,META也公布了一种视频联合嵌入预测架构技术V-JEPA,据悉,这是一种通过观看视频教会机器理解和模拟物理世界的方法,V-JEPA可以通过自己观看视频来学习,而不需要人类监督,也不需要对视频数据集进行标记,甚至根据一张静止图片来生成一个动态的视频。

不仅如此,近日,英伟达宣布成立GEAR实验室,布局多模态AI以及具身智能领域,另外Stability.ai发布了具备更强文生图能力的Stable Diffusion 3模型,并宣布文生视频应用Stable Video开放公测。随着海外厂商持续加速多模态AI领域布局,多模态AI新一轮浪潮有望加速到来。

通过整个市场来看,2024年开年,AI 大模型技术进展全面加速,视频、图像、文本生成能力比一年前大大增强。如果说,2023年还是“AI 图文生成元年”的话,今年,OpenAI将推动行业进入“AI视频生成元年”。

战场并不局限与大模型

2024年燃起来的并不单单是大模型,还有AI应用、端侧AI、智能算力......

在智能算力方面,以北美市场为例,根据TrendForce集邦咨询最新预估,以2024年全球主要云端服务业者对高端AI服务器需求量观察,预估美系四大CSP业者包括Microsoft、Google、AWS、Meta各家占全球需求比重分别达20.2%、16.6%、16%及10.8%,合计将超过6成,居于全球领先位置。

在国内亦是如此,据艾瑞咨询发布的《2023年中国智能算力行业发展白皮书》报告显示,2023年大模型算力需求集中爆发,AI 大模型相关行业占中国智能算力总需求的58.8%,接近60%,是智能算力的最大需求方;排名第二的是算法推荐,占比14.2%。由此我们可以看出,在大模型这场战斗的背后,是其用于训练、推理的智能算力的需求。 

大模型同样带火的是端侧AI,Canalys预测,AI PC的问世有望重振市场并改变用户体验,可谓是该行业的分水岭。之所以这样说是有原因的,据IDC统计,2023年第四季度,全球传统电脑出货量同比下降2.7%。IDC的初步预测显示,到2024年底,下一代AI智能手机的出货量将达到1.7亿部,占智能手机总出货量的近15%,比2023年的约5100万部有了大幅增长。

写在最后

从大模型到背后的智算支撑,再到同样火热的端侧AI,我们看到,整个市场充斥的激烈的竞争,而目前的OpenAI、谷歌、Meta、亚马逊云科技、微软,以及国内的百度、科大讯飞、昆仑万维等,他们之间的竞争也仅仅是AI时代赋予的缩影。 

在这场AI战役中,每家企业都在各自赛道发力,并在各自赛道争取更多的可能性。仅从OpenAI与谷歌的这场角逐中,我们可以看到,两家企业对于技术研发的投入,同样这样角逐也让他们受到更多的关注,也让大家深入的了解更为前沿的AI技术。

在笔者看来,谷歌和OpenAI有着各自的优势,比如谷歌的生态,OpenAI的技术实力,这些也都是未来企业发展的驱动力。笔者相信,未来已来,而OpenAI与谷歌也只是拉开了帷幕。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部