衡宇 发自 凹非寺
量子位 | 公众号 QbitAI
明天就是辞旧迎新的春节假期,咱来点不一样的——
送上一份「年初展望」,站在2025年伊始,把AI科技领域不同领域的热点趋势,浅浅盘了一圈。
从人型机器人、AI眼镜,从推理模型到AI Coding……分别从产品侧和技术侧,把今年最有料的8个大热门趋势一网打尽,干货过年。
产品侧:人形机器人,AI眼镜,智能驾驶,AI陪伴
技术侧:Inference-Scaling,视频生成,AI Coding,空间智能
这是编辑部在纵观岁末年初全球各式各样的展会、论坛、圆桌,访问众多产学研领域众多机构之后,对整个行业变革趋势的洞察。
邀请诸君共赏,共同参与或观望。
这怎么不算一种AI科技年夜饭呢?(手动狗头)
01 产品侧
Part 1:人形机器人
如果以2021年马斯克在首届特斯拉AI Day上公布人形机器人Optimus(擎天柱)概念为起点,回顾过去的3年,赛道逐渐火热,全球巨头加码,创业团队入局。
加上2023年起,随着AI大模型技术的进步和仿真环境的改进,具身智能再为人形机器人加了一把烈火——中科院院士姚期智也曾表达自己的看法,称人形是最适合实现通用具身智能的形态。
随之而来的结果,就是人形机器人井喷,并迅速从概念走向实机、从实验室走向室外开放世界。
迄今为止,人形机器人的最高潮当属月初CES 2025上,老黄带着人形机器人天团的激情开场:
14个“as the same size (with me)”的人形机器人在他背后列队现身,非常之震撼。
14个人形机器人中,有6个来自中国:
一周前,在北京,英伟达机器人与边缘计算副总裁又透露正在构建一个平台,帮助机器人专家、研究人员、机械工程师和测试人员更轻松地开发机器人解决方案。
一切正在加速中。
且潜力不必多言:麦肯锡报告显示,至2030年,全球人形机器人市场空间可达12-16万亿元。
而我们刚刚步入的2025年,或许就是人形机器人量产元年:
国外,特斯拉Optimus有望年内进入小批量量产阶段,马斯克豪言2026年有望实现大规模量产;国内,智元机器人月初官宣量产的731台人形机器人正式下线……
Part 2:AI眼镜
2024年年中,Ray-Ban Meta出货量超过100万台,彻底点燃了全球AI眼镜赛道。
“眼镜一定是承载AI功能的最重要载体之一”已成为行业共识,不信你看CES,简直可以称之为AI眼镜竞技场——据不完全统计,有近50家AI眼镜在CES现场进行展示,其中中国玩家就有至少有14个。
遍观中外媒体、KOL的报道与探展,这些已亮相AI眼镜大致可分为三类:
纯音频AI眼镜
音频+拍照AI眼镜
带显示AI眼镜
如此激烈的盛况吸引全行业的目光,尤其是作为先行者的Meta,自然格外关注。
据了解,近日Meta一名混合现实产品团队核心成员在硅谷表示,百镜大战中令他印象最深的产品之一,是一款名为Halliday的AI眼镜(这也是《头号玩家》中游戏“绿洲”创始人的名字)。
他解释是被Halliday独特的成像方式所吸引。Halliday没有选择通过各种镜片反射来成像,而是使用DigiWindow显示技术,在镜框上方内侧放置光学模组,把需要从AI获得的信息直接光投影至用户的视网膜成像。
这就避免了其他AI眼镜的彩虹纹、漏光等问题,还提高了获取信息的效率。
这和目前所有的其它AI眼镜打出了差异化。
当下有个并不意外的现实,那就是CES结束后的1个月内,AI眼镜的关注和讨论仍在持续攀升。
一方面,展会强影响力带来长尾效应;另一方面,多个品牌AI眼镜开始发货,用户上手测评反馈俯拾皆是。
混战之中,Halliday在2天前也刷了一次屏:全球最大众筹平台Kickstarter上,上线72小时的Halliday众筹额已超过137万美元(约992.6万元),超募6861%,创史上最大AR/AI眼镜项目众筹纪录。
行业内闪耀CES,用户圈层又有众筹成绩认可,究其原因,或是其独特的自我定位:
不是电子消费品,而是时尚科技品。
简单来说,就是该产品虽然具备AI功能,但首先会先满足“一副很棒的普通眼镜”这一条件。
“很棒”体现在能够日常佩戴,包括但不限于佩戴舒适(35g市场最轻重量+超12小时长续航)、时尚好看、可矫正视力(自带免费配镜)等等,然后再在此基础上,“只开发在智能眼镜上有意义的功能”。
此外,为了不复制手机功能,Halliday主打生产力场景;为了融入用户日常,它在传统交互形式上增设指环交互形式,不依赖手机,也不用用户在人群中虚空对话。
(i人狂喜中.gif)
很有意思的是,Halliday背后是中国美瞳一哥。
它由国内彩瞳品牌moody核心团队孵化和独立运营,公司CEO也是moody创始人、CEO慈然;另一边,DigiWindow技术由新加坡AI硬件整合服务商Gyges Labs提供,在Halliday眼镜上搭载了全球最小最轻的近眼显示光学模组。
可喜可贺,赛道发令枪刚打响,已经有人率先摆脱桎梏,不再被Ray-Ban Meta的先验经验束缚住了。
2025年,以Halliday为代表,AI眼镜行业开始出现新的前沿创新形式;聚焦到Halliday本身,则是用眼镜市场的视角和积淀,把AI眼镜的用户体验往前推进了一大步。
Part 3:智能驾驶
在黄仁勋CES演讲的后半段,有一段至今被热议的总结。
世界上有三种机器人,它们可以制造出来并且不需要绿地(经过开发的场地),棕地(未经开发的场地)适应的特性非常完美。
这三种机器人,其中之一就是自动驾驶汽车(还有一个是人形机器人)。
L4级别的自动驾驶虽然尚在彼岸,但智能驾驶,已经成为车圈豪华新标准,科技平权新方向。
在过去的2024年,智能驾驶通过两个端到端加速洗牌,分别是:
技术架构的端到端:摆脱高精地图依赖,实现无图NOA(领航辅助驾驶);
产品体验的端到端:从单城市试点,到全国铺开,再到“车位到车位”,智驾可用范围和时段迅猛增加。
基于此,L2+体验不断拔高,行业开始瞄向L3进军,逐渐具备L3的技术基础、配套政策和保障机制。
L3商用,有望成为2025年的急先锋。
与此同时,作为L4级自动驾驶技术的核心应用场景,Robotaxi也势头正盛。
全球一哥Waymo每周载客早已超15万单;国内方面,近期有文远知行、小马智行相继敲钟上市。
再加上马斯克预判,Robotaxi的每公里运营成本将低于1元——7*24小时全天候运营的Robotaxi,在全球广袤的范围内商业化正火线提速。
根据量子位智库基于公开数据测算,2025年,国内Robotaxi市场规模就将达到10.92亿元。
Part 4:AI陪伴
AI陪伴,一直是众多公司布局AI Native应用的重要选择。
据量子位智库报告调研,这个赛道在过去一年中,国内有20家公司共推出了21款产品;但报告统计数据显示,2024年,国内AI陪伴的新增速度和用户活跃等数据普遍下滑,后继乏力。
这可能与市场趋于饱和、用户需求变化以及技术创新不足等因素有关。
不过CES让AI陪伴柳暗花明又一村,人们发现,AI陪伴已经开始从线上向线下转移。
具体表现为Moflin、Mirumi、Nékojita FuFu、Ropet、Ai Me等各式各样AI玩具的玩具出现。
它们通过AI技术,根据环境进行感知,有的具备情感模拟能力,而有的甚至无法与人类进行基本的浅层交互。
但AI玩具大有成为热门潮玩的趋势,究其根本原因,绕不开其提供的新鲜体验和情感支持。
以及其作为AI陪伴的物理世界载体,不再只盯着儿童用户做“陪伴”,转向扩展到多年龄段用户。
也就是说,2025年,线上增长放缓的AI陪伴,正在从虚拟应用向实体硬件转型,产品设计趋向于更加拟人化和情感化,以满足用户对陪伴和互动的需求。
02 技术侧
Part 5:Inference-Scaling
毫无疑问,2025技术侧已经能看见火花的重要趋势,必然有因OpenAI o1掀起的Scaling新范式:
Inference-Scaling。
与1年前技术领域普遍信仰的传统Scaling Law不同,Inference-Scaling强调了后训练(post-training)和推理阶段(inference-time)计算投入的重要性,与之对应的结果是模型推理能力的大幅提升。
这就意味着大模型资源开始向Post-training和推理算力倾斜。
也意味着新一轮竞赛的开始。
单看国内,短短几个月内已经有昆仑万维Skywork o1、阿里通义QVQ、智谱华章GLM-Zero-Preview、阶跃星辰Step R-mini、深度求索DeepSeek-R1、月之暗面Kimi k1.5、百川智能Baichuan-M1-preview等多个推理模型问世。
需要重点关注的是,OpenAI CEO山姆·奥特曼非常明确地对外宣称,“o1只是推理模型的GPT-2时刻”。
事实似乎也的确如此——
从推理能力上来说,谷歌版o1,即Gemini 2.0 Flash Thinking,思考速度比(发布时市面上)所有模型快5倍;OpenAI较o1成立提升不止一倍的o3系列中,mini已可使用。
从泛化能力上来说,inference-Scaling并非只在语言大模型领域生效,o3、QVQ、Baichuan-M1-preview等都证明其可以泛化至视觉领域。
从模型成本上来说,DeepSeek-R1在训练层面的创新与工程优化,又将推理模型的天价成本和使用费用拉到了新低,持续震撼硅谷。
而英伟达12月底发布的全新GPU B300,显存从192GB提升到288GB,足以支持推理模型在处理长序列任务时,其KVCache机制能够显著降低延迟,并支持更大的batch size。
这就是老黄为2025年起所有出现的推理模型,提供的物理外援了。
Grok AI绘图
Part 6:视频生成
自去年2月OpenAI推出Sora模型引爆视频生成领域以来,全球范围内的相关技术突飞猛进。
本轮视频生成技术进步热潮中,最受瞩目的是两股技术力量。
其一是将Transformer架构引入到扩散模型中的DiT(Diffusion Transformer)模型,它极强地提高了图像生成的质量。
代表作是OpenAI的Sora。
另一种的主要路线仍然与深度学习和GAN(生成式对抗网络)密不可分,它通过分析大量训练数据,学习并尝试模拟现实世界的物理规律。
代表作是Google DeepMind的Veo 2。
在这条赛道上,国内相比海外更加百花齐放,创业公司和大厂各显其能,共同钻研推动技术发展,部分技术已达到甚至超越Sora的水平。
下面列举部分玩家及其产品:
创业玩家:海螺(MiniMax)、清影(智谱)、跃问视频(阶跃)、Vidu(生数)、PixVerse(爱诗)
大厂玩家:可灵(快手)、即梦(字节)、万相(阿里)、混元(腾讯)、SkyReels(昆仑万维)
此处提及产品,是考虑到国内视频生成赛道玩家几乎都走「左手技术推进,右手产品落地」路线。
因此,toC产品用户市场反馈对技术的倒逼,也可以视为视频生成技术迫切前进乃至革新的重要要素。
Part 7:AI Coding
传统AI Coding,如GitHub Copilot,底层接入OpenAI的Codex模型,聚焦于单行代码补全或函数生成。
新一代AI Coding工具,则是通过GPT-4o、Claude 3.5等AI 2.0时代的大模型,实现全栈开发能力。
尤其是借助Claude 3.5 Sonnet强大的编程能力,诞生了很多AI Coding明星项目。
如Windsurf、Bolt、V0,再如刚刚官宣完成最新1.05亿美元B轮融资的Cursor,它就就是去年年中接入Claude 3.5 Sonnet后,才实现了用户量和口碑双双爆发。
除了指令微调、代码专项微调、多任务学习与多目标损失函数等拉升AI Coding能力的传统艺能外,Claude 3.5 Sonnet的强代码能力,还有部分来自于其长上下文能力,有助于模型评估需求并生成量身定制的解决方案。
2025年,AI Coding背后的技术又有了新的探索点。
代码能力与o1相当且开源的Deepseek-R1,本月20日刚刚发布。
其AI Coding能力能大幅拉升,部分基于在极少数标注数据的情况下,后训练阶段纯RL(强化学习)路线,无需SFT(监督式微调);在编程任务中,额外使用自动化测试来评估代码质量。
总之,虽然AI Coding仍需人工干预优化,但已经完成颠覆性变革:
从代码补全工具跃升为全流程开发助手,甚至已经从“低代码”的拖拉拽,进阶到让“无代码”编程从概念走向实践。
目前,AI Coding的底层技术已经出现值得深入探索的新侧重点,加上基座大模型自身的飞速进展,完全有望在2025实现智能驾驶L3级别的突破,催生出全新的开发范式。
Part 8:空间智能
空间智能这一概念,最早在2024年由斯坦福大学教授、被誉为“AI教母”李飞飞提出:
空间智能是指机器在三维空间和时间中感知、推理和行动的能力,帮助它理解事物在三维空间中的位置及交互方式。
遵循此理念,李飞飞创办了空间智能公司World Labs。
并于去年12月初发布了首个空间智能模型,1张图就能生成可交互的3D游戏世界AI系统,以此真正拉开空间智能从理论迈向实践的帷幕。
进一步厘清空间智能的细节,其野望在于将空间计算操控虚拟世界的本领和具⾝智能触达现实世界的能⼒结合起来。
故而,具身智能、世界模型、3D生成也可涵盖在广义空间智能背后技术范围内。
其中,世界模型旨在构建对物理世界的动态模拟,支持AI系统预测未来状态并制定行动策略。
截至目前,该领域呈现两大技术路线:
第一,以谷歌Genie 2为代表,通过视频生成模型学习物理规律,能够从单帧图像预测连续动作序列;第二,以英伟达Cosmos为代表,结合强化学习与多模态数据,构建高精度虚拟环境。
3D生成技术则是空间智能的另一个发展方向。
其下又分基于3D Gaussian Splatting、利用2D Diffusion Model优化3D几何、通过Transformer直接映射2D图像到3D表征等多种技术路线。
One More Thing
在这8大赛道中,有的蓄势待发,有的已露峥嵘,有的甚至呈现“超车”之势。
无论是产品侧的“看得见”,还是技术侧的“摸得着”,AI正以前所未有的速度重塑着我们的生活。
整理盘点过程中,难免百密一疏。
若有挂一漏万之处,还请诸位海涵,也欢迎小伙伴们在评论区指出和探讨。
最后,祝大家新春快乐发大财,咱也要赶春运回家过年去liao~
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有