10月29日,小米在发布会上表示10月30日在全国范围内部署城区NOA。而“端到端”将在11月底内测,12月底推送先锋版。其实,今年夏天开始,“端到端”智驾就成了业内最火的概念。就在小米发声前一周,理想汽车也刚刚宣布了自己的端到端进程。
小米还在疯狂赶工中的“端到端”,是“一段式”(感知和规控合为一体),还是“两段式”(感知和规控模块分开,中间嵌入人工接口),目前没有公开信息。不过,9月份小米将原来“感知”和“规控”两个二级部门合并为“端到端算法与功能部”。组织架构的变化,暗示小米至少将“一段式”作为目标。
截至目前,已经有十几家主机厂和供应商,声称上马或者即将上马“端到端”,以至于这个概念,从新鲜到滥俗,只花了不到1年时间。不管有没有,都得说有。看如今的流量打法,嘴上输了就等于“输阵”。闽南人说“输人不输阵,输阵歹看面”。对潜在受众和自家团队构成士气打击,不是小事。
“一段式”和“两段式”,双方旗鼓相当
目前,声称已部署“一段式”端到端的供应商,只有Momenta。智己、广丰、埃安,作为Momenta的客户,宣布同期部署。就在10月28日举办的品牌智能驾驶技术日上,智己汽车宣布IM AD 3.0完成从“最像人”到“有直觉”的进化,迈入“直觉”智驾新时代。
而表示“即将”部署“一段式”的品牌,则包括理想、小米、商汤科技、元戎启行等。“两段式”主机厂和供应商似乎数量更多,目前有小鹏、极氪、极越、魏牌蓝山、鸿蒙智行等。
而宝骏作为大疆的用户,不但部署了卓驭+宝骏云海,还特意标明为“中算力两段式端到端”。
至于华为的鸿蒙系,客户包括问界、享界、智界、岚图、阿维塔、方程豹、广汽传祺。东风猛士、尊界也宣布了与华为合作的信息,但迄今尚无“端到端”部署规划。华为的态度,暂时未将“一段式”作为目标。而且,华为也不认为“两段式”是通往“一段式”的过渡形式。
除此之外,奇瑞、长安启源、地平线、轻舟智航等,虽然规划了端到端,但未说明形式。
到现在为止,端到端领域,看似支持“两段式”品牌略多于“一段式”。如果将同一供应商技术来源的,都视为一个品牌,两者几乎旗鼓相当。
在实现高等级自动驾驶诸多技术路径当中,端到端值得尝试,很可能不是唯一路径,甚至不是最优路径。
我们曾提到过,时髦的“端到端”智驾,走到哪一步了两段式”的优势在于,人工接口信息可观测,但感知输出的白盒状态,就意味着信息过滤后存在损失。
而“一段式”和“两段式”相比,理论上前者信息丢失少,上限应该比较高。但鉴于“一段式”可解释性更差,到底突破什么下限,大家都没底。因此所有厂商,不管做的是“一段式”还是“两段式”,无一例外都设置了兜底规则(rule-based)。这也意味着“两段式”同样存在不可解释的部分。
数据需求决定部署规模
虽然“端到端”的参数量只相当于中模型,在一枚英伟达Orin-X上就能跑起来,貌似消耗算力不多。但背后必须有大数据和大模型支持。数据的门槛不仅是对绝对数量的要求,对于数据的分布和多样性要求也极高,而且还要求是100%的好数据(合规最优操作)。
主机厂自研,和由供应商推动,最大的区别不是技术本身,而是数据获取能力。后者理论上能获得多个品牌的产品数据,数据量更大。
有人表示,“一段式”端到端应部署在20万元以上中高端车上。现在没有迹象表明,“一段式”就比”两段式“需要更大的车端算力和更强的感知能力(比如有无激光雷达)。将端到端能力作为入门级和高配区分的一个维度,有可操作性,但同时其演化规律又要求更大的数据量,即尽量扩大部署规模。两者要求背离。
何去何从,需要掂量一下。当前端到端的竞争主轴并非现实商业利益,而是尽快迭代起来,形成明显的使用价值。由此可见,即便实地部署了“一段式”端到端,迭代到可用、好用,群众满意的地步,也需要长期投入。
算力大比拼
不可否认,“一段式”模型,设计源头就比“两段式”难度更大,调参回路更长、落地流程也更艰难一些。
设计一个可工作的神经网络(模型)需要很多人类智力资源,训练它更复杂。神经网络的每一个子网络,都涉及归一化、偏差、非线性输出,校正回归等一堆问题。而且多层网络让这些问题的复杂度上升了维度。
训练促使模型从出生到成熟,训练的本质是定量分析。如果用5000万个clips(视频片段)训练模型20轮,相当于分析1B个clips。训练中心算力直接决定系统迭代速度。
而算力还用于推理计算,可以将其理解为自动化标注。以前人工标注的速度慢,但精度高。推理计算的标注精度低,需要反复刷标提高精度。特斯拉计划将后台算力推高至100E(1EFOLPs=10^18次浮点计算)。根据ChatGPT的经验,训练量达到一定量级,也许会出现大语言模型的“涌现”现象。是否需要与其相当的狂野算力,任何人都没有经验,也没人宣称,多少后台算力就够了,包括特斯拉自己。
只要想自己搭建训练和推理系统,买算力卡的费用绝对省不了。考虑到英伟达H100,甚至阉割版H800/A800,包括同样能力的AMD,对中国禁售措施越来越严格,各家如何搭建算力,是一个很有意思的问题。
4月份的时候,特斯拉在Q1财报会议上透露将AI训练集群扩展到35000块H100算力卡。而同期国内能买到1000块算力卡的厂家,都是凤毛麟角。
华为的昇腾910B(按照性能最强的910 Pro B),性能据说和H100的算力差不多。但最紧要的并非峰值算力,而是FLOP利用率。英伟达的算力卡FLOP利用率出了名的低(FP8模型35%左右)。而昇腾系列的问题是产能供不应求,一块昇腾910 ProB一度炒至28万元。
假设国内企业的模型设计水平,与特斯拉相当,而昇腾系列算力卡优于英伟达一倍以上(这一点存疑),那么想达到特斯拉FSD V12的水平,至少也需要1万块以上910B算力卡。
江湖传闻,910B的2023年出货量大概50万块,这些卡被谁买走了,缺乏信源。基于众所周知的原因,华为对高制程芯片的生产细节讳莫如深。
种种迹象表明,能够攒起万块以上算力卡的主机厂和供应商,国内一只手就能数过来。远不像场面上人手一份“端到端”那么花团锦簇……
如果这是一场看不见上限的军备竞赛,不考虑成本的话显然越高越好。显然,国内厂商中间,华为确定有能力跟一下,其他主机厂和模型供应商都需要买卡。如果训练相当于挖矿,英伟达被定位“卖铲子的”,那么华为一面卖铲子,一面也自己动手挖矿,因此获得了额外的算力供应链优势。
算力比拼正在演化为各家投资力度竞赛,没有取巧之机。
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有