老黄 5090 都被初创公司虐了?印度 CEO 用 20 人团队让芯片快10 倍、功耗大砍近 80%!网友:等英伟达收购

老黄 5090 都被初创公司虐了?印度 CEO 用 20 人团队让芯片快10 倍、功耗大砍近 80%!网友:等英伟达收购
2025年03月22日 10:15 InfoQ

整理 | 华卫、核子可乐

在图形处理器(GPU)领域,英伟达、AMD 和英特尔占据主导地位已有一段时间了。虽然中国还有其他相关企业,但他们要打入美国市场一直以来都困难重重。

近日,一家美国 GPU 初创公司 Bolt Graphics 发布了专为游戏、渲染和超级计算机模拟等用例设计的 Zeus GPU 平台。据了解,Bolt Graphics 没有仅仅致力于打造低端显卡并寄希望于扩大规模,而是巧妙地解决了高端 GPU 计算方面的一个特定难题。该公司表示,其 Zeus GPU 不仅支持可升级内存与内置以太网接口等,而且在路径追踪工作负载方面的性能表现比英伟达 GeFOrce RTX 5090 快 10 倍左右。根据 Bolt Graphics 的数据,280 张 RTX 5090 GPU 的算力只需 28 张 Zeus GPU 即可实现。

据了解,Bolt Graphics 是一家成立不到 6 年的初创公司,由印度人 Darwesh Singh 在 2020 年创立,该公司在领英的主页上显示共有 20 位员工。该公司在 2021 年获得了第一轮融资,随后很快又于 2022 年获得了第二轮融资,专注于电影、模拟和游戏中的硬件加速光线追踪技术,目标是在解决模拟和 3D 图形等繁重任务的性能问题同时降低功耗。

创立 Bolt Graphics 前,Darwesh Singh 从事了十年的数据中心和云环境设计工作。多年来,他从事过从安装机架到为大型企业设计先进数据中心的各种工作。2014 年,Darwesh 凭借创新精神,在目睹了电影视觉效果的冗长渲染时间后,开发出了硬件加速光线追踪解决方案。这一突破为他于 2020 年创立的 Bolt Graphics 公司奠定了基础。

对于 Zeus GPU 现在所公布的性能情况,有网友调侃道:“这家公司将在‘3、2、1’的倒计时结束后被英伟达收购。”

1

速度快了,功耗更低、显存可扩展?  

与当今许多处理器一样,Zeus 同样依赖于多芯片设计。据介绍,入门款 Zeus 1c26-032 配备单一处理单元以及 32 GB LPRDDR5X 内存,传输带宽为 273 GB/ 秒,可使用双 SO-DIMM(速度为 80 GB/ 秒)和最高 128 GB 的 DDR5 内存。Zeus GPU 还搭配有 I/O 芯片,该芯片包含一个 400 GbE/800 GbE 的 QSFP-DD 端口、两个使用 CXL 3.0 协议的 PCIe Gen5 x16 插槽(可实现多卡间的高效内存共享)以及一个用于 BMC 的 GbE 端口。该 GPU 芯片以 256 GB/ 秒的速率与其 I/O 芯片连接。

Zeus 单芯片架构

更高端的 Zeus 2c26-064/128 则使用双 Zeus 处理单元、一个 I/O 芯片,且支持 64 GB 或 128 GB 的 LPDDR5X 内存。最强大的旗舰版本 Zeus 4c26-256 则集成了四个处理单元、四个 I/O 芯片、256 GB LPDDR5X 以及最高 2 TB 的 DDR5 内存容量。四芯片版的 Zeus 不再以 GPU 卡的形式存在,而是直接作为服务器交付。

四芯片版 Zeus 的架构

与优先考虑带宽的高端 GPU 不同,Bolt Graphics 显然更重视内存容量的绝对数值,希望借此处理更大的渲染与模拟数据集。另值得一提的是,从该公司展示的 Zeus 性能表现表格图中可以看到,Zeus 的 DDR5 内存还带有 SO-DIMMs 后缀,这代表它是支持可插拔的。也就意味着,这块显卡是可以通过插入多条 DDR5 内存来扩展显存。

此外,内置的 400 GbE 及 800 GbE 端口可实现联网 GPU 之间的更快数据传输,这表明 Zeus 显然是以数据中心作为主要应用场景。

Zeus 高性能计算模拟用例

Zeus vs RTX 5090  

据该公司介绍,高质量渲染、实时路径追踪与计算是 Zeus 关注的重点领域,因此即使是入门级 Zeus 1c26-32,也能提供比英伟达 GeForce RTX 5090 更高的 FP64 计算性能(高达 5 TFLOPS,远高于后者的 1.6 TFLOPS),路径追踪性能也高得多(77 Gigarays,远高于后者的 32 Gigarays)。

功耗

Zeus 还拥有比英伟达这款旗舰级产品更大的片上缓存(高达 128 MB,后者为 96 MB),且运行功耗更低(120W,后者高达 575W),约是 RTX 5090 的 21%,这使其在模拟、路径追踪和离线渲染等领域更高效。

此前,RTX 5090 曾因高功耗而受到争议,其相比 RTX 4090 性能提升有限,但功耗却多出 125W,对电源的要求较高。原本许多用户都希望,英伟达 RTX 50 系列能更注重效率而不是继续提高功耗,特别是考虑到 RTX 4090 相比 350W 的 RTX 3090 已经是一次大幅跃升。

价格

不过,四芯片版的 Zeus 虽然功耗低于 RTX 5090,但价格可能更贵——从数据来看,除了 FP32 和 FP16 运算之外,四芯片版的 Zeus 在所有工作负载方面都能胜过英伟达的这款旗舰级游戏显卡,这凸显出 Zeus 或并不打算以传统游戏画面渲染为主要卖点。RTX 5090 推出时就因高昂价格引发讨论,1999 美元(合人民币约 14647 元)的 GPU 定价对普通玩家来说不是一笔不小的数目。

该公司表示,四芯片版本针对电磁场建模、光子学研究和快速傅里叶变换(FFT)计算进行了优化。凭借更大的内存池加上对于外部存储的较低依赖,Zeus 有望提高大规模模拟的运行速度。当然,前提是它的这套混合内存子系统在所有工作负载上都能高效运行。

Zeus 电磁波模拟输出用例

AI 及传统渲染

RTX 5090 在 AI 工作负载中似乎仍然占据主导地位,其 FP16 算力达到 105 TFLOPS、INT8 算力达到 1637 TFLOPS,而单芯片 Zeus 的这两项指标分别只有 10 FP16 TFLOPS 与 614 INT8 TFLOPS。如果 Zeus 可以进行传统渲染,那么 1c26-32 也只拥有 10 FP32 TFLOPS 性能,似乎远无法与 RTX 5090 的 105 TFOPS 相抗衡。

但 Bolt Graphics 还推出了 Glowstick 路径追踪渲染引擎功能,这可能是种很有前途的内部实时渲染解决方案。传统的渲染工作流程往往需要较长的处理时间才能实现结果可视化,而 Zeus 则大大减少了这种延迟,因此更适用于专业的可视化应用场景。与现有解决方案相比,Bolt Graphics 声称其在单芯片版本上的性能提高了 2.5 倍,且使用多张 GPU 时性能还会更高。

传统图形处理方面,但目前还不清楚 Zeus 究竟会提供怎样的性能。与现代消费级显卡相比,Zeus 公布的矩阵吞吐量确实看似平平无奇,更不用说与数据中心级别的显卡相比了。单块功率限制为 700W 的英伟达图形处理器 Blackwell B200,可提供 60 TFLOPS 的着色器 FP32 运算能力、30 TFLOPS 的 FP64 密集矩阵运算能力和 1.8 PetaFLOS 的稀疏 TF32 运算能力。

2

全面投产的挑战  

Zeus 的出现似乎代表着一种突破,但目前 Zeus 仍在纯模拟环境下运行,因此以上所有性能声明均未通过实际硬件验证。Bolt Graphics 方面表示,其首批开发套件将于 2025 年底上市,全面投产则要等到 2026 年底,期间软件开发者将可充分试用这款硬件。如果 Zeus 真能兑现承诺,则很有可能成为科学计算、路径追踪与离线渲染等应用场景下的重要替代方案。

需要注意的是,由于 Zeus 针对的是路径追踪渲染技术以及计算工作负载,因此它被猜测可能没有传统的固定功能 GPU 硬件,如纹理单元(TMU)及光栅操作单元(ROP)。尽管如此,每张 Zeus GPU 都配备一个 DisplayPort 2.1a 和一个 HDMi 2.1b 输出端口。但该公司则专门解释称,Zeus 配备了 TMU 和 ROP 引擎,且优化工作仍在持续进行,目前尚未披露任何规格。

在 GPU 中,ROP 负责将 3D 图形数据转换为 2D 像素表示,是图形渲染过程中的重要一步,对最终输出阶段起着关键作用。据英伟达介绍,RTX 5090 配备了 176 个 ROP 单元。但前不久被曝,有部分用户到手的 RTX 5090 存在 ROP 数量不足的缺陷。要知道,ROP 的缺失将带来许多明显的游戏体验影响,包括游戏帧率下降、延迟增加、抗锯齿性能降低等。英伟达当时对此的解释是生产问题,并表示故障卡的数量占比不到 0.5%。

此外, 软件支持无疑将成为决定 Zeus GPU 成功与否的关键因素,毕竟单凭硬件功能其并不足以与 AMD 和英伟达等老牌厂商展开竞争。 与英伟达的 CUDA 和 AMD 的 ROCm 不同,Bolt Graphics 的 Zeus 缺乏成熟且得到广泛采用的软件生态系统。

根据已发布的演示文稿,与依赖专有指令集的 AMD、英特尔和英伟达 GPU 不同,Bolt Graphics 的 Zeus 依赖于开源的 RISC-V ISA,其采用了一种开源无序通用 RVA32 标量核心,同时与 FP64 算术逻辑单元(ALU)及 RVV 1.0(RISC-V 扩展版 1.0)配合使用,能够处理 8 位、16 位、32 位乃至 64 位的数据类型,还配备了针对加速科学工作负载所设计的其他专有扩展功能。基于 RISC_V 架构,Zeus 可以使用现有的开源工具和库,但若无强大的开发者支持,其采用可能会受到限制。

然而,目前还不清楚 Zeus 是否支持行业标准框架,如 OpenCL、Vulkan 和 CUDA 转换层——这些框架对于 GPU 产品在高性能计算(HPC)工作负载领域的推广至关重要。如果 Bolt Graphics 能够提供强大的开发者工具、优秀的编译器支持以及同 Linux HPC 环境的兼容性,Zeus 确实有望成为科学计算与渲染领域的一位强大参与者。但无论如何,与英伟达成熟生态系统的“艰苦”竞争仍然不可避免。

驱动程序也将是另一大潜在影响因素——即便是像英特尔这样的科技大厂,往往也需要很长时间才能解决驱动程序带来的问题。

简而言之,关于 Zeus GPU 家族还有太多的未解之谜和需面临的挑战。Zeus 目前才刚刚完成模拟运行测试,实体硬件计划于今年晚些时候推出。它会如何处理传统渲染、路径追踪以及 AI?我们还须拭目以待。

0条评论|0人参与网友评论
最热评论

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部