整理 | 华卫、Tina
MLOps 行业要变天了?!
12 月 30 日,英伟达表示在克服一系列监管阻力之后,已完成对以色列 AI 初创公司 Run:ai 的收购,并宣布了开源同名 AI 平台的计划。一家专门帮助企业高效管理 GPU 基础设施的软件提供商正式被英伟达纳入旗下,此次收购将进一步加强英伟达的软件产品组合,从核心图形芯片业务扩展到 AI 基础设施管理。
给 Run:ai 团队的钱翻了一倍?
Run:ai 成立于 2018 年,几乎与英伟达涉足 AI 领域的时间点保持一致,且自 2020 年以来一直与其密切合作,双方还拥有不少共同客户。据了解,Run:ai 专门提供 GPU 编排软件,其同名 AI 平台提供调度和资源分配等功能,以最大限度地提高利用率和生产率,使人工智能团队能够更灵活地使用计算资源并降低成本。
在完成此次收购之前,Run:ai 平台仅支持英伟达制造的 GPU 设备。据悉,之后 Run:ai 计划将该平台作为开源软件提供,将其使用范围从 Nvidia GPU 扩展到整个 AI 生态系统,但没有透露具体的方式和时间信息。
然而,需要注意的是,开源 Run:ai 的计划仍存在一大未知数:尚不清楚英伟达是否会为开源 Run:ai 软件提供扩展服务。
另外,据 Ctech 报道,虽然两家公司没有透露此次收购的价格,但估计会比之前首次公布交易消息时的标的金额高出 1 亿美元(合约 7.3 亿人民币),最终约为 8 亿美元。报道称,在此次收购的总价值分配中,会有 2 亿美元用于留住 Run:ai 的团队,以英伟达股票支付。而该收购最初在 2024 年 4 月宣布时,提出的这部分交易价值仅为 1 亿美元。
这是因为,此次收购从达成原则性协议道交易完成历经了 8 个月,期间英伟达的股价大幅飙升,使基于股票的支付价值翻了一番。虽然交易的延迟可能让一些人感到沮丧,但事实证明,Run:ai 的员工和创始人来说很可能因此获得一笔不小的意外之财。根据 LinkedIn,Run:ai 约有 150 名员工。
不过,目前尚不能确定企业家和员工到底能从中获益多少,因为一些消息来源表明,股份协议可能包含了限制估值增长的机制,以减轻潜在的波动性。
没有单一技术栈,
但“开源”或将重塑 MLOps 生态?
AI/ML 领域每天都在涌现新的工具。随着全球各行业纷纷将 AI/ML 融入数字化转型,这一趋势将持续加速,催生无数新兴企业。
截图来源:https://neptune.ai/blog/mlops-tools-platforms-landscape
然而,工具的爆炸式增长也带来了挑战。如今,市场上充斥着各式各样的 AI/ML 工具,它们针对不同的行业、应用场景和开发者偏好而设计。
这种多样性虽然满足了不同团队的个性化需求,但也导致了“shadow AI”现象的出现。所谓“shadow AI”,是指数据科学团队在没有统一规划的情况下,自行选择和部署各种工具。从长远来看,这会带来 GPU 等计算资源利用率低下、增加了 IT 部门的运维负担等一系列问题。数据科学家们不得不花费大量时间在工具选择、环境配置和问题排查上,而这些精力本应用于模型开发和创新。
同时,在当前情况下,MLOps 也不存在一个单一的工具或技术栈可以满足所有需求。“一刀切”的方案并不可行,那么解决之道在于打造一个统一的层级:这一层既能为 IT 部门提供所需的控制力和管理技术栈的能力,又能为各团队保留灵活性,让他们自由使用创新工具。无论一家公司的 AI/ML 技术栈中包含哪些工具,都需要一个稳健的资源管理层。而这正是 Run:ai 的切入点所在。
不同于其他 MLOps 平台,Run:ai 位于技术栈的底层,直接与 Kubernetes 集成,构建了一个编排和虚拟化平台。
每个 AI/ML 团队都可以使用自己选择的 MLOps 工具,而 Run:ai 作为编排层发挥作用。它可以从不同位置(云端、本地或混合环境)汇聚资源,构建一个统一的资源池。在此基础上,Run:ai 的调度器(Scheduler)会自动在工具之间共享基础设施资源,并根据业务策略和优先级分配资源。调度器能够感知工作负载的类型,例如,会根据训练(Train)与推理(Inference)负载的不同需求进行优化。最重要的是,Run:ai 最大化了 GPU 的使用效率,避免了 GPU 资源的闲置浪费。
根据 Run:ai 的说法,它还是全球首个将操作系统级虚拟化概念与基于 GPU 的 AI 工作负载相结合的公司。两年前,在公司完成 B 轮融资时,其 CTO Ronen Dar 表示:“我们为 AI 硬件所做的,就像 VMware 和虚拟化技术为传统计算所做的那样。”
而英伟达此次收购及潜在的开源策略,有人认为这是为 2025 年的 AI 市场布局了新的棋局,并且他们采取的“开源”策略也引起了行业热议,开源无疑会吸引到更多开发者,这不仅是一种典型的引流手段,也可能成为英伟达新的增长引擎。
Confluent 总监:英伟达以 7 亿美元收购了 run:ai,计划开源其 GPU 优化软件。在高速增长的市场中,开源战略往往更具优势。当所有人都感到恐惧时,要保持乐观。2025 年,我们来了!
英伟达又赢麻了。
等等,开源?我还以为他们对这个词过敏呢?
收购后为何要转向开源?
虽然两家公司均未解释将 Run:ai 平台推向开源的意图,目前也尚不清楚为何要等英伟达收购完成之后才会开源,但背后的逻辑似乎并不难理解。
首先,开源软件极有可能是帮助其说服监管机构批准这项收购的一大推动力。对 Run:ai 的收购有望进一步扩大英伟达的专利保护壁垒,但 Run: ai 公司创始人 Omri Geller 与 Ronen Dar 则坚称不会发生此类状况。
毕竟自英伟达成长为全球第一大 AI 芯片制造商以来,其股价已经飙升至 3.56 万亿美元,成为全球市值最高的企业。这对英伟达来说虽是件好事,但随之而来的反垄断监管也使其难以完成商业收购。当初微软以 687 亿美元收购动视暴雪时,就通过将动视的《使命召唤》游戏以十年期授权给其他平台来安抚反垄断监管机构的情绪,解决人们对其在游戏领域过于强大的担忧。同样的情况可能也将发生在英伟达身上。
据了解,此次收购在提出后,相关工作一直在积极筹备当中,但之后在美国和欧盟都受到严格的反垄断审查。有报道称,美国司法部以反垄断为由对英伟达的这项交易开展了调查。欧盟委员会在 2024 年 10 月表示,由于担心拟议交易会破坏两家公司所处行业的竞争态势,英伟达必须获得交易批准与反垄断许可,而这也成为双方合并的最大阻力。另据路透社报道,欧盟对此项交易的调查重点可能在于英伟达是否会借此加强对 GPU 产业的控制力。
经过严格审查,前不久欧盟委员会宣布已无条件批准了该交易,并表示它不会引起竞争担忧。“我们的市场调查向我们证实,市场上仍有与英伟达硬件兼容的其他软件可供选择。”欧盟新任反垄断负责人 Teresa Ribera)在声明中表示。
其次,这可能是 Run:ai 自己设定的条件。Run:ai 创始人 Omri Geller 与 Ronen Dar 在联合声明中提出了自己的“开放平台理念”,表示“软件开源将帮助社区更快构建起更加强大的 AI 成果”。他们提到,“秉承我们的开放平台理念,在加入英伟达之后,我们将继续赋予 AI 团队自由选择最适合自身需求的工具、平台及框架的权利。我们将继续加强合作伙伴关系,与生态系统一道交付各种 AI 解决方案与平台选项。”
此外,根据 Geller 和 Dar 的一篇博客文章,他们之后计划大幅扩大 Run:ai 在以色列的业务,同时保持其运营独立性。这种独立性将使该公司能够继续与其他行业参与者合作,这也是最初引起监管部门对英伟达在 AI 基础设施市场主导地位的担忧的关键因素。
英伟达:影响不大
在 AI 行业,英伟达的软件实力始终不容小觑,而最典型的例子无疑是其 2007 年以来始终积极研发的闭源 CUDA 软件,AMD 的 ROCm 等开源竞品则一直在努力寻求突破口。
从此次收购后的开源计划来看,有相关需求的客户仍可以将自己的 AMD 及英特尔支持同 Run:ai 技术栈灵活绑定起来,从而让 AMD 的 ROCm 同大规模 AI 工作负载协同运行。作为市面上唯一的英伟达替代方案,AMD Instinct GPU 也提供了一些变通性质的支持选项。
但 AMD 公司 AI 高级副总裁 Vamsi Boppana 曾在媒体采访中表示,“现实情况是,人们希望在更高的抽象层次上编写软件。”比如说 PyTorch,就同时为 AMD 和英特尔芯片提供 AI 框架。然而,这种高级别支持的根基还不够稳牢,很多插件及常用工具在英伟达芯片以外仍无法发挥作用,仅限英伟达家加速器的优化在流行 AI 工具中仍相当常见。
Creative Ventures 普通合伙人 James Wang 称,根据个人经验,过往的各类 CUDA 替代方案“令人头痛”,其甚至认为英伟达对 AI 技术栈的控制力几乎可以与苹果的生态系统主导地位相比肩。换句话说,如今针对 AI 工作负载的 GPU 优化工作,就如同当初为 iOS 应用开发 Android 版本一样困难重重。
由此看来,哪怕对 Run:ai 进行开源或许也并不会严重损害英伟达的利益。但不可否认的是,此举不仅在客观上为开发人员带来了更多选择,同时也给了替代方案建立完善 AI 生态系统的机会。
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有