大模型混战这一年：进化之赛、效率之争、落地之战_

文/王慧莹

编辑/子夜

日行千里，烈火烹油的两年过去，飞速发展的大模型行业怎么样了？

与两年前“百模大战”为技术争夺的景象不同，玩家们有两个速度之争：一是技术迭代和产品更新的速度，二是商业化赚钱和应用落地的速度。

技术和产品的迭代很直观，直接推动大模型行业的百舸争流。从语言大模型，到文生视频大模型，再到3D生成大模型，几乎每隔几个月就会有让人眼前一亮的大模型出现。

大家都在尝试和摸索。每一次技术的扩大亮相，都会将具有前瞻性的大模型厂商推到聚光灯下，并引发新一轮的行业追随。

有人领先，就有人追赶。这些尚未成熟的技术，给了探路者弯道超车的机会，也带来了商业化的压力。

尤其是进入今年下半年，整个行业的风向更加微妙。市场逐渐对大模型祛魅，资本也回归理性，行业的两股势力也发生了站位的转换。

一边是阿里、字节等巨头投入的动作明显加快，收编大模型创业公司的核心人才，推出一系列AI产品；一边是创业公司开始重新评估自身的路线，国内“AI六小虎”有两家逐步放弃预训练模型，业务重心转向AI应用。

这背后，直指行业第二个速度之争：商业化的效率。

毋庸置疑，当下的大模型赛道高度拥挤，随着算力成本上涨、算力分配有限，对创业公司而言，大模型这场战役时间线拉得越长，创业公司的压力就越大。

“AI大模型（赛道），将只剩下10家企业扮演重要角色。”中国工程院外籍院士张亚勤曾表示。这几乎是行业的共识，最后的胜利属于少数的玩家。

大模型最终会进化成什么样，还不确定，但可以确定的是，大模型浪潮下，技术仍在迭代，场景仍在惊艳，商业化也始终在探索的路上。

过去两年，大模型不缺惊艳时刻，行业也处于百家争鸣的阶段，无论是暂时领先的玩家，还是奋力追赶的玩家，都有机会在奔跑中，抢到更多的蛋糕。

1、3D世界、自主 Agent、思考大模型……大模型惊艳迭代

从ChatGPT的惊艳亮相开始，新一轮的AI浪潮整整奔涌了两年。AI想象力被重启，大模型站上C位，围绕大模型的讨论和尝试也爆发式增长。

大模型的终局是什么样的？这一问题的答案吸引众多玩家前赴后继地卷技术、卷应用。

根据lifearchitect.ai数据，截至目前，全球总共有467个大模型。新技术不断涌现，行业竞速赛愈演愈烈，大模型厂商都在不断迭代升级，旨在离AGI更进一步。

进入到今年，除了应用上的百家争鸣，一个明显的变化在于，以ChatGPT为代表的大语言模型局限性日益显现。比如，他们只能处理文本领域的任务，无法与物理和社会环境进行互动；虽然大模型语料库已经十分丰富，但关于人类的价值观的文本，他们并不具备理解能力……

技术被重构，大模型行业也在不断改进和进化中，行业在寻找下一个更“类人”的模型或应用。

北京时间12月3日，“AI教母”李飞飞创立的World Labs推出最新成果：世界模型，一张单个图像即可生成3D世界。

以往，我们熟知的大多数GenAI工具仅能制作图像/视频2D内容。World Labs则实现了在3D中生成，视频的控制性、一致性能得到改善。World Labs称，他们所生成场景的独特之处在于它们具有交互性，而且是可修改的。

这是今年9月份创立World Labs以来，李飞飞团队推出的首个成果，也是其迈向空间智能的第一步。早在成立之初，李飞飞团队瞄准的就是空间智能，其初衷就是空间智能的AI，能够对世界进行建模，同时根据3D时空中物体/地点/交互进行推理。

李飞飞的个人影响力，加之空间智能的想象力，World Labs成立三个月，有消息称其估值达10亿美元。

两天后，北京时间12月5日，Google Deepmind紧随其后发布了最新基础世界模型Genie 2。作为今年初推出的Genie模型的升级版，Genie 2只需要一张图就能生成可玩的AI系统。DeepMind透露，Genie 2具备从不同视角（如第一人称视角与等距视角）生成连贯世界的能力，这些生成的世界可持续时间长达一分钟，尽管多数情况下维持在10到20秒之间。

如果说世界模型展现的是模型理解虚拟世界运作规律，并准确做出预测的能力，那OpenAI今年9月推出的o1系列模型则在于会思考。

彼时，OpenAI CEO奥特曼对o1信心满满，“我认为这次 o1 模型发布最重要的信息是，AI 发展不仅没有放缓，而且我们对未来几年已经胜券在握。”

与GPT系列模型不同，o1系列模型有更强大的“思路链”，模型会在思考后回答用户问题，输出高质量的内容，而非迅速回应无效回答。此外，o1系列更擅长推理，推理能力大幅提升，特别是在奥数、编程等领域展现出了优势。

行业风向标的新动作，引发国内大模型厂商的追赶。11月16日，月之暗面公布了k0 math；11月20日，Deepseek上线DeepSeek-R1-Lite大模型；11月27日，昆仑万维推出“天工大模型 4.0” o1 版……无一不在强调大模型的逻辑思考能力。

无论是哪种路线的大模型进化，都让人类离AGI更进一步。

其中，在应用层面，今年还有一个趋势不能忽视，人类与机器的互动方式正在发生范式转变，拥有对话功能的GPT逐渐进化能行动的AI Agent（智能体）。

市场研究机构 Research and Market在11月11日发布的报告中指出，未来五年AI智能体的市场规模将增加420亿美元。麦肯锡也表示，AI智能体将是生成式AI的下一个前沿。

具体到玩家的动作上，“有手、有脑、有眼睛”的AI Agent成为玩家抢滩的对象。

10月份，作为最早探索Agent的初创企业智谱，推出自主智能体AutoGLM ；一个月后的Agent OpenDay上，智谱展示了AI Agent的最新成果，包括AutoGLM、AutoGLM-Web、GLM-PC三个版本，对应手机、浏览器、电脑的应用场景。

新升级的AutoGLM能够理解超长指令，执行超长任务，在多步、循环任务中，AutoGLM的速度表现超过人手动操作。可以预见的是，当技术足够成熟，一个Agent就能帮助人操控一切。

此前，微软Ignite大会上，微软宣布已建立全球规模最大的企业级AI Agent生态系统；前OpenAI高管创办的初创公司Anthropic推出名为Claude的AI智能体；OpenAI被传出将在2025年1月发布代号为Operator的智能体。

在国内，智能体也百花齐放。一边是手机厂商开始拿出智能体、智能助力讲故事；一边是巨头下场做智能体。比如字节跳动的扣子、腾讯云的腾讯元器、百度智能云千帆AgentBuilder、阿里云大模型平台百炼、……

这一年，大模型不缺惊艳时刻。会思考的大模型、会想象的大模型、会预测的大模型，站在大模型技术的潮头，走向AGI的路上，更惊艳的产品迭代一直在发生。

2、AI视频，新的角逐中谁都不甘落后

时间回到今年2月，行业军备竞赛持续一年，OpenAI再次将大模型行业推至高潮。OpenAI以世界模拟器的名号发布了视频生成模型 Sora，让“一句话生成视频”变成可能。

行业的加速器来自Sora。追赶Sora、超越Sora，几乎成了海内外大模型玩家的共识。

在海外，今年5月，谷歌发布对标Sora的文生视频模型Veo；6月，Luma推出Dream Machine视频生成模型，AI视频生成初创公司Runway推出Gen-3 Alpha模型。

将视角放到国内，玩家们为“中国版Sora”争先恐后，催生两轮爆发期。

先是今年5月开始，生数科技Vidu、快手可灵、字节即梦、智谱清影、商汤Vimi等都相继发布文生视频模型。

今年9月，国产视频生成大模型又迎来了新一轮爆发。MiniMax正式发布视频模型video-01、阿里云在云栖大会上发布通义万相全新视频生成模型、美图宣布MiracleVision大模型完成视频生成能力的升级。

今年11月，腾讯混元大模型正式上线视频生成能力。目前的生成视频支持中英文双语输入、多种视频尺寸以及多种视频清晰度。另一边，月之暗面旗下Kimi被爆出正在内测AI视频生成功能“Kimi创作空间”，可通过12种预设风格模板和自定义创作功能，为用户制作个性化音乐视频。

两轮爆发期间，随着初创企业和巨头的入局，AI视频赛道正变得拥挤。更关键的是，经过上半年密集发布新产品的阶段，想要在竞争中突出重围，行业的比拼从“有没有”升级为“好不好用”。

为了变得好用，升级更新是玩家们的统一动作。在国内，动作最快的莫过于有视频基因的快手和抖音。

截至今年9月，快手可灵经历了十次迭代升级。目前，在可灵1.5模型的支持下，可灵AI可以直出1080p高清视频，挑战大屏清晰度与质感。在图生视频方面，可灵1.5模型可以响应更复杂的文本描述要求。此外，可灵AI还支持运动笔刷、对口型等功能。

快手科技2024年投资者日上，快手主站业务与社区科学线负责人盖坤介绍，已有累计超260万人使用过可灵AI，并累计生成超2700万个视频、5300万张图片。

同为视频赛道的字节，与快手正面交锋。今年一季度，字节AI研发团队将视频生成模型的优先级排在前列。3月底，即梦开启视频生成功能内测；9月，字节发布豆包模型家族的两款视频生成模型Seaweed和Pixeldance，并通过即梦AI、火山引擎小范围邀测。

相比于之前的视频生成模型大多只能完成简单指令，字节的这两款模型能让视频在大动态与运镜中自由切换，拥有变焦、环绕、目标跟随等多镜头语言能力，能更好地服务在视频、电影领域的专业创作者。

11月，Seaweed面向平台用户正式开放。据字节方面介绍，本次开放使用的豆包视频生成模型Seaweed是该款模型的标准版，仅需60秒即能生成时长5秒的高质量AI视频，领先国内业界3至5分钟的所需生成时间。

从底层技术看，AI视频赛道玩家的路线基本一致，即采用Transformer架构的新型扩散模型DiT，进行相关扩散、生成的技术突破。也就是说，玩家更多是通过训练数据丰富产品功能。

这也是字节、快手在AI视频赛道跑得更快的原因。“Sora们”切入的60s视频正是字节、快手的基本盘。在短视频生态下，二者有丰厚的视频土壤滋养，这种视频数据的训练，正是推动大模型“好用”的关键因素。

历经近一年，国内文生视频大模型赛道进入了Sora时刻。AI视频大模型的生成能力迈入新阶段的同时，我们也要看到行业的焦虑。

从实际落地层面上看，如果是B端商业生产，短剧、电影、广告对画面的连续性、一致性要求很高；如果是C端用户娱乐，对AI生成的最大要求是真实性。

需求倒逼技术，想实现真正的好用，并不容易。

从技术上看，当下视频模型在理解、创作物理世界方面的表现依旧有限，画面的连贯稳定、主体的一致真实以及视频的时长都亟需迭代进化。

从成本上看，当下的视频技术很难下放到寻常百姓家，名噪一时的Sora至今仍处于研究阶段，仅面向少数专业人士进行内测，很大一部分原因就在于高昂的成本。

再回到AI视频是行业趋势的这个问题上，厂商们之所以纷纷下注，一方面是因为行业需求催生了市场规模。

头豹研究院数据显示，2021年中国AI视频生成行业的市场规模为800万元，预计2026年，这一市场规模将达到92.79亿元。

另一方面，大模型的商业落地进度越来越迫切，相比于ChatGPT这种聊天机器工具，AI视频生成是大模型技术商业化落地更具潜力的赛道。

3、效率之争、落地之战

两年，给行业带来技术革命，也让行业变得冷静。

今年7月，2024世界人工智能大会上，百度创始人李彦宏在演讲中提到，“2023年国内出现了百模大战，其实造成了社会资源的巨大浪费，尤其是算力的浪费。”

李彦宏言辞激烈的背后，是整个行业更加理性。市场期待在模型之中长出能落地的应用，为大模型厂商赚到钱、为各行各业提供效率。

抛开技术问题，这注定是一场应用落地的效率之战，这也就回到了商业化的问题上。

从去年“百模大战”，到今年应用之战，无论是哪个阶段，商业化都是大模型行业反复提到的话题。大模型的特殊性在于“烧钱”，技术上的研发成本，应用上的运行成本，每一步都少不了真金白银的支持，这也是大模型企业们的“紧箍咒”。

在国内，相比于两年前焦灼地坐上牌桌，争做“中国OpenAI”的执念，这群AI明星企业将重点放在了商业化落地应用的探索上。

据智能涌现报道，被称为“AI六小虎”的6家中国大模型独角兽（智谱、零一万物、MiniMax、百川智能、月之暗面、阶跃星辰）中，已经有两家逐步放弃预训练模型，缩减了预训练算法团队人数，业务重心转向AI应用。

这透露了市场两个曲线，一个是部分初创企业正被困在商业化的焦虑里；二是行业商业化战线拉长，巨头的战斗力更足。

比如去年只发布了语言大模型的字节，今年一口气补全了视频、3D、音乐等多领域的大模型。在应用层面，字节陆续推出了十几个AI应用，覆盖了娱乐、对话、Agent等多个产品方向。

在C端表现上，下半年巨头商业化的影响力更为突出。据数据分析机构QuestMobile，字节豆包App今年9月的日活已达760万，成为中国日活最大的AI产品。

这一趋势下，大厂和创业公司的角色站位也发生变化。尤其是步入今年下半年，当资本冷静，一些AI明星创业公司被巨头收编，大模型创业公司高管加入大厂。

这验证了大厂坚决投入AI的重要性。AI是个增量，不仅能为大厂原有业务带来新的想象力，大厂原有的业务场景也可以为AI提供商业闭环。

不过，尽管是资源和场景更为丰富的大厂，面对市场对其巨额AI投入何时能换来回报的质疑时，也有些迷茫。

迷茫的背后，还有个更重要的问题：Scaling Law还成立吗？

所谓Scaling Law，是大模型行业的一个重要技术原理。具体而言，OpenAI四年前曾经发布过一篇论文表示，模型的性能会随模型参数量、数据量、计算资源增加而指数提升。

只要Scaling Law 还成立，那么大模型的能力就可以通过算力、参数、数据的训练实现AGI。

行业仍是积极的。特别是OpenAI推出o1后，标志着大模型能力突破到了L2阶段。大模型开始真正拥有了逻辑思维能力，在无人力干预的情况下进行规划、验证和反思。

某种程度上，o1打破了预训练的 Scaling Law 瓶颈，商业上解锁了新的可能。在OpenAI和智谱给出的“通往AGI五阶段”的定义中，两家公司均将多模态和语言能力归在L1阶段，也就是最为基础的能力配备。

这个行业，从ChatGPT，到Sora，再到o1，OpenAI仍是具有时代性的公司。也许和过去一样，哪个大模型厂商能最先追上o1，市场还会迎来一波新高潮。

追赶技术的路上，玩家们不能忽视的是如何把钱花到刀刃上，这是一场技术、应用、场景的效率之战。

眼下，行业的淘汰赛已经开始，李彦宏曾预测，在未来AI浪潮里，市场中99%的伪创新都将被淘汰，只有1%的企业能够脱颖而出。谁是这1%，谁能创造“新”世界，要等市场给出答案。

头条号入驻

连线Insight 产业升级创新者的聚集地。

财经自媒体联盟更多自媒体作者

今日推荐优秀作者看点月榜

新浪财经头条意见反馈留言板

4000520066 欢迎批评指正

大模型混战这一年：进化之赛、效率之争、落地之战

1、3D世界、自主 Agent、思考大模型……大模型惊艳迭代

2、AI视频，新的角逐中谁都不甘落后

3、效率之争、落地之战

头条号入驻

美团企业版给出“简单公式”：成本、效率和体验如何兼顾？

运动相机混战十年：老玩家和新黑马谁赢了？

羽绒服品牌集体冲高端，但今年冬天的“销量战”不好打

财经自媒体联盟更多自媒体作者

热文排行榜

大模型混战这一年： 进化之赛、效率之争、落地之战

1、3D世界、自主 Agent、思考大模型……大模型惊艳迭代

2、AI视频，新的角逐中谁都不甘落后

3、效率之争、落地之战

头条号入驻

美团企业版给出“简单公式”：成本、效率和体验如何兼顾？

运动相机混战十年：老玩家和新黑马谁赢了？

羽绒服品牌集体冲高端，但今年冬天的“销量战”不好打

财经自媒体联盟更多自媒体作者

热文排行榜

大模型混战这一年：进化之赛、效率之争、落地之战