关于特斯拉Dojo芯片的一些疑问

关于特斯拉Dojo芯片的一些疑问
2021年08月26日 09:21 半导体行业观察

上周,特斯拉发布了 Tesla D1 Dojo 芯片。它具有令人垂涎三尺的规格,其独特的晶圆封装系统和芯片设计选择让它们在训练大规模数万亿参数网络时,与竞争对手领先的AI 硬件相比,拥有数量级优势。

和其他报道一样,特斯拉的规格表非常令人印象深刻,但也存在一些警告和重大问题。SemiAnalysis 将深入探讨这些问题。我们还专门详细介绍了与现有半导体公司合作设计该芯片的情况。

在功能单元层面和系统层面,特斯拉根本就没有足够的内存。

在单个功能单元上,它们具有 1.25MB 的 SRAM 和 1TFlop 的 FP16/CFP8。这对于他们想要达到的性能水平来说是非常糟糕的。对于庞大的数万亿参数模型来说,这种平衡似乎很遥远。

在芯片级,同样的缩放适用,因为裸片上没有其他 SRAM 结构。每个单元只有 1.25MB,每个芯片的网格中有 354 个单元。

虽然它们在芯片和tiles之间具有令人难以置信的带宽,但即使是具有 0 重复资源的完整 Exapod 也有 1.33TB 的总内存,超过 FP16 的 exaflop。这解释了 Tesla 创建 CFP8 数据类型的原因。

虽然它以与 FP16 相同的速度完成,但它需要的面积更小,并允许它们进一步扩展微量的片上内存。Graphcore 也有与片上 SRAM 类似的问题,它们根本不够用。尽管他们每个芯片的 SRAM 是 Tesla 的 2 倍以上,但芯片内存的缺乏导致性能和 TCO 与 Nvidia 相比非常差。

特斯拉最大的吸引力之一是芯片到芯片的互连非常强大。它的带宽比竞争对手的 ASIC 和 Nvidia 高出一个数量级。特斯拉通过用 112G SerDes 封装die的每个边缘来实现这一点。该 IP 完全从他们的合作伙伴处获得许可。总共有 576 个这些 SerDes,这让它们达到了令人难以置信的 8TB/s IO。

为了从芯片中获得如此庞大的 I/O,特斯拉不得不依赖非常奇特的封装。他们的芯片封装非常昂贵,但这是从如此小的封装中获得 8TB/s IO 的唯一方法。台式机或服务器 CPU 使用的普通 LGA 样式封装不会有足够的引脚。

此外,以 8TB/s 的速度进出这种封装会使消耗的电量出现爆炸式增长。TSMC 的 CoWoS 有 3x 光罩限制,而 InFo 有 2x 光罩限制。这意味着特斯拉只能将几个芯片封装在一起。他们唯一的选择是晶圆级封装。具体来说,他们在晶圆上使用台积电集成扇出系统 (InFO_SoW)。

特斯拉已经做到了这一点。他们在实验室中以 2GHz 的频率运行着极其昂贵的单块。他们没有完整的系统。完整系统计划在 2022 年的某个时间推出。

两项最困难的技术壮举甚至还没有完成。那就是tile to tile互联和软件。

每个tile具有比最高端网络交换机更多的外部带宽。为实现这一目标,特斯拉开发了定制互连。特斯拉,我指的是他们在光子学方面拥有深厚专业知识的合作伙伴。它们是带有定制外部激光器的定制硅光子收发器。这种实现是非常昂贵的。

另一个关键是软件。特斯拉甚至没有声称有一种方法可以在整个架构中自动放置和路由微型张量的操作。他们确实声称他们的编译器负责细粒度和数据模型并行。但这并不足以让我们相信这一说法。有太多拥有 AI 硬件的公司甚至无法解决这个问题,许多工程师致力于开发已经存在几年的芯片软件。即使他们声称他们做到了。

一个神奇的编译器也值得怀疑。当在问答中被问及有关堆栈的问题时,他们完全没有准备。他们甚至说他们没有解决软件问题。

最有可能的是,特斯拉研究人员需要手动完成此过程的一部分。此外,研究人员将需要明确解决 SRAM 问题,否则他们将面临运行速度非常快的风险。这些限制迫使他们的开发人员调整模型并为系统进行大量优化,该系统应该消除扩展到大规模模型的束缚。

半导体专业人士提出的最大问题是“这在经济上到底如何可行?”

特斯拉详细介绍了一套非常具体的硬件,但数量并不那么大。总共只有 3,000 个 645mm^2 7nm 芯片已承诺部署。这伴随着非常奇特的封装和定制光子学,专门用于部署在 ExaPod 超级计算机中。没有足够的数量来摊销研发这样的芯片的巨额成本。即使特斯拉不是在 tile-to-tile 互连或 112G SerDes 上进行研发的公司,但这个观点依然成立。

对经济可行性的担忧是无关紧要的。这台超级计算机的用例很明确,训练一个自动驾驶AI。最终目标和目标市场价值数万亿。特斯拉的整个估值建立在特斯拉比其他任何人之前到达 Robotaxis 的炒作之上。如果他们能够在全球数百万辆汽车中创建和部署自动驾驶人工智能,那么他们就证明了价值数万亿美元的估值是合理的。

为了这个目标,如果这个芯片和超级计算机系统设计能让特斯拉提前 6 个月达到这个目标,那么他们花 10 倍多的每一分钱都是值得的。许多人会争辩说,他们首先达到它是有争议的。Mobileye、谷歌的 Waymo、英伟达及其合作伙伴、通用汽车 Cruise、Motional 和许多其他公司在这一领域投入了数十亿美元,竞争非常激烈。在这场竞争中,只有谷歌和英伟达拥有与特斯拉并驾齐驱的超级计算机。虽然这主要是一个软件问题,但丰富的计算资源可以帮助研究人员更快地迭代更复杂的神经网络。

尽管缺乏大型超级计算机,但人们普遍认为,Mobileye New York 的实施是自动驾驶最令人印象深刻的公开展示。根据监管数据,谷歌的 Waymo 每英里行驶的干预次数最少。我们认为,特斯拉为赢得 Robotaxi 比赛并赶上这两项比赛而投入尽可能多的资金是有道理的。他们可以很容易地通过廉价债务或进一步的股票发行筹集更多资金。任何不是第一个拥有大规模 Robotaxi 网络的世界都是特斯拉被高估的地方。为此,他们必须追求这一战略,甚至更多。

埃隆·马斯克表示,最终他们可以用这款芯片/计算机开展 SaaS 业务。虽然我们不知道这是否会成功,但扩展到许多这些 E1 计算机并拥有这种商业模式将是一个巨大的繁荣。

成本、光子学、内存限制、缺乏软件以及这款芯片是 2022 年或以后的事实是我们必须牢记的。这个芯片不是特斯拉自己设计的比其他人都更好的东西。我们不能随意透露他们合作伙伴的姓名,但当我们参考外部 SerDes 和光子学 IP 时,精明的读者会确切地知道我们在谈论谁。

特斯拉的芯片和系统设计令人印象深刻,但我们应该对其更加审慎。

特斯拉Dojo芯片,领先竞争对手一个数量级

特斯拉刚刚召开了他们的人工智能日,并透露了其软件和硬件基础设施的内部工作原理。此次公开的部分一是之前公开的Dojo AI训练芯片。特斯拉称他们的 D1 Dojo 芯片具有 GPU 级别的计算能力、CPU 级别的灵活性,以及网络交换机IO。

几周前,我们推测该系统的封装是 TSMC 晶圆集成扇出系统 (InFO_SoW)。我们解释了这种类型的封装的好处以及这种大规模扩展训练芯片所涉及的冷却和功耗。此外,我们估计该软件包的性能将优于 Nvidia 系统。所有这些似乎都是有根据的推测。今天,我们将深入的挖掘更多的半导体细节。

在我们深入讨论硬件之前,让我们先谈谈评估基础架构。特斯拉不断地重新训练和改进他们的神经网络。他们评估任何代码更改以查看是否有改进。在汽车和服务器中部署了数以千计的相同芯片。他们每周进行数百万次评估。

多年来,特斯拉一直在扩大其GPU集群的规模。如果特斯拉停止所有实际工作负载,运行Linpack,并将其提交到Top500榜单,他们目前的训练集群将成为第五大超级计算机。然而,对于特斯拉和其雄心来说,这种性能的扩展是不够的,所以他们在几年前就开始开发自己的Dojo芯片项目。特斯拉需要更高的性能,以节能且经济高效的方式实现更大、更复杂的神经网络。

特斯拉的架构解决方案是分布式计算架构。当我们听他们的细节时,这个架构看起来很像Cerberus。我们分析了Cerebras晶圆级引擎及其架构。每个AI训练架构都是以这种方式布置的,但计算元素、网络和结构的细节差别很大。这些类型的网络最大的问题是扩大带宽和保持低延迟。为了扩大网络规模,特斯拉特别关注于此,这影响了他们设计的每个部分,从芯片材料到封装。

该功能单元被设计为可通过1个时钟周期,但足够大,以至于同步开销和软件不是主要问题。因此,他们得出的设计几乎和Cerebras一模一样。由高速结构连接的单个单元的网状结构,该结构在一个时钟内的功能是单元之间的路由通信。每个单元都有一个大的1.25MB SRAM暂存板和多个具有SIMD功能的超标量CPU核,以及支持所有常见数据类型的矩阵乘法单元。此外,他们还引入了一种名为CFP8的新数据类型,可配置浮点8。每个单元可在BF16 / CFP8上支持1TFlop,FP31上64GFlops,每个方向512GB/s的带宽。

CPU也是毫不逊色,它在矢量管道上是4宽2宽。每个核心可以承载4个线程,以最大限度的提高利用率。遗憾的是,特斯拉使用了定制的ISA,而不是像 RISC V 这样的顶级开源 ISA。这个定制的ISA引入了转置,收集,广播,和链接遍历的指令。

这354个功能单元的全芯片可达到BF16或CFP8的362 TFlops和FP32的22.6 TFlops。它总共有645mm²和500亿个晶体管。每个芯片都有惊人的400W TDP,这意味着功率密度高于大多数配置的Nvidia A100 GPU。有趣的是,特斯拉实现了每mm²上集成7750万个晶体管的有效晶体管密度,仅次于移动芯片和苹果M1,比其他所有高性能芯片都要高。

基本功能单元的另一个有趣的方面是NOC路由器。它与Tenstorrent有非常类似的在芯片内部和芯片间的扩展方式。毫不意外,特斯拉正在采用与其他备受推崇的人工智能初创公司类似的架构。Tenstorrent 非常适合扩展培训,而特斯拉非常关注这方面。

在芯片上,特斯拉拥有惊人的10TBps定向带宽,但这个数字在实际工作负载中没有多大意义。特斯拉相对于Tenstorrent的一个巨大优势是芯片之间的带宽要高得多。他们在 112GTs 上有 576 个 SerDes。这产生了总共 64Tb/s 或 8TB/s 的带宽。

我们不确定特斯拉每条边的4TB/s是从哪里得到的,更有可能是X轴和Y轴上的数字。先不说这张令人困惑的幻灯片,这个芯片的带宽是疯狂的。目前已知的最高外部带宽芯片是32Tb/s网络交换机芯片。特斯拉能够通过大量的SerDes和先进的封装将这个数字翻倍。

特斯拉通过PCIe 4.0将Dojo芯片的计算平面连接到连接主机系统的接口处理器上。这些接口处理器还支持更高的基数网络连接,以补充现有的计算平面网格。

25个D1芯片被封装成 “扇出晶圆工艺(fan out wafer process)”。特斯拉并没有像我们几周前猜测的那样确认这个封装是台积电的集成晶圆扇形系统(InFO_SoW),但考虑到疯狂的芯片间带宽和他们特别提到的扇出晶圆,这看起来很有可能。

特斯拉开发了一种专有的高带宽连接器,可以保留这些芯片之间的芯片外带宽。每个芯片都有令人印象深刻的9PFlops BF16/CFP8和36tb /s的off-tile带宽。这远远超过了Cerebras的晶圆外带宽,使特斯拉系统的横向扩展能力甚至比横向扩展设计(例如 Tenstorrent 架构)还要好。

电源传输是独一无二的,定制的,也非常令人印象深刻。由于具有如此大的带宽和超过 10KW 的功耗,特斯拉在电力传输方面进行了创新,并垂直供电。定制稳压器调制器直接回流到扇出晶片上。功率、热量和机械都直接与芯片连接。

即使芯片本身的总功率只有10KW,但芯片的总功率仍然是15KW。电力传输、IO和晶圆线也在消耗大量的电力。能量从底部进来,热量从顶部出来。特斯拉的规模单位不是芯片,而是25块芯片。这个贴图远远超过了Nvidia, Graphcore, Cerebras, Groq, Tenstorrent, SambaNova,或任何其他AI训练项目的单位性能和扩展能力。

所有这些似乎都是非常遥远的技术,但特斯拉声称,他们已经在实验室的真实人工智能网络上以2GHz的频率运行了芯片。

扩展到数千个芯片的下一步是服务器级别。Dojo可扩展为2 x 3的tile配置,在一个服务器中有两个这样的配置。对于那些在家计数的人来说,每个服务器总共有12个tile,每个服务器总共有108个PFlops,超过100,000个功能单元,400,000个定制核和132GB SRAM是令人震惊的数字。

特斯拉不断扩大其网格中的机柜级别。芯片之间没有带宽中断,它是一个具有惊人带宽的同质芯片网格。他们计划扩大到10个机柜、1.1 Exaflops、1,062,000个功能单元、4,248,000个核心和1.33TB的SRAM。

软件方面很有趣,但我们今天不会太深入讨论。他们声称他们可以对其进行虚拟细分。他们说不管集群的大小如何,软件都可以在Dojo处理单元(DPU)之间无缝扩展。Dojo 编译器可以处理硬件计算平面的细粒度并行和映射网络。它可以通过数据模型图并行性来实现这一点,但也可以进行优化以减少内存占用。

模型并行性可以跨芯片边界扩展,甚至不需要大批量的轻松解锁具有数万亿参数甚至更多参数的下一级AI模型。他们不需要依赖手写的代码来在这个庞大的集群上运行模型。

总的来说,与英伟达的GPU相比,成本相当,但特斯拉声称他们可以实现4倍的性能,每瓦性能提高1.3倍,减少5倍的面积。特斯拉的TCO优势几乎比英伟达的AI解决方案好一个数量级。如果他们的说法是真的,特斯拉已经超越了人工智能硬件和软件领域的所有人。我对此表示怀疑,但这也是硬件极客的美梦。

我们都要试图冷静下来,等一等,看看它什么时候会实际部署到生产环境中。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部