如何让token更聪明的流动起来？与硅基流动袁进辉和清程极智汤雄超聊聊关于AI Infra的一切_

在硅星人首届AI创造者大会（ACC 2024）上，围绕「让Token更聪明地流动起来」这一主题，硅星人内容中心负责人王兆洋与硅基流动创始人&CEO袁进辉以及清程极智CEO汤雄超进行了一场对话。

袁进辉是硅基流动创始人兼 CEO ，曾任微软亚洲研究院主管研究员。他在 2017 年创立一流科技（OneFlow）， 2023 年带OneFlow进入王慧文组建的公司光年之外，担任联合创始人。在光年之外被美团收购后，他和原班人马再次建立新公司硅基流动，以推理加速优化为主要方向，通过多款产品帮助开发者更低成本地使用模型实现自己的应用想法。目前已完成近亿元天使+轮融资。

汤雄超是清程极智的CEO。清程极智是一家大模型时代诞生的AI Infra公司，它的大多数核心成员与汤雄超一样，来自国内超算的顶级研究机构清华大学，他们希望把过往超算上的技术用到今天大模型的训练和推理上来。国内超算领域资深的科学家翟季冬教授为这家公司首席科学家。

以下为对话实录：

小蛋糕，大蛋糕与做蛋糕

王兆洋：欢迎两位。在组织这次AI Infra相关的panel时，我们内部开玩笑说：懂AI Infra的人都知道，这个嘉宾阵容里的门道有多深。今天我们非常期待能和两位深入探讨AI Infra里的一切重要话题。

先说个有趣的插曲。在准备这场Panel时，我5岁的儿子在旁边，对我要去北京主持的这场对话很好奇。我也突发奇想，想试试看能不能用简单的比喻向他解释您二位的公司在做的事情。我跟他说，这就好比吃蛋糕。过去，大家吃蛋糕不会吃太多，关键是怎么把蛋糕切得更好。但现在大家就像变成了大恐龙，需要吃更多的蛋糕。这时候，两位叔叔在做什么呢？一位叔叔致力于把更多小蛋糕拼成一个大蛋糕，确保每一块都得到充分利用，满足恐龙的食欲。另一位叔叔则专注于让大家在吃蛋糕的每一口都不要掉渣，减少浪费，保留住蛋糕的营养成分。

我自己也试着用这个方式去理解两位公司在做的事情，不知道这个比喻是否恰当。两位可以结合我们今天的主题'让Token更聪明地流动'，也谈谈各自公司在做的事情。

你们如何理解'更聪明'这个概念，又是如何推动这种聪明的流动得以实现的？

袁进辉：我就继续借蛋糕的比喻来说明我们正在做的事情。除了让大家吃蛋糕不浪费，也包括做蛋糕的阶段。

大家想吃蛋糕，当然可以去蛋糕店购买，但如果每次去买比较麻烦，可能也会希望自己做一些。然而，自己做蛋糕需要准备许多原材料，过程复杂，要有鸡蛋、巧克力、面粉和水等。我们所做的，就像是为大家提供一个“蛋糕机”，使得大家不再需要自己从头准备所有材料，而是可以直接享用成品。假如将算力、模型和工具链等比作制作蛋糕的素材，过去要使用这些资源，还得花时间做许多准备工作。我们通过简化这个过程，让用户在使用大模型时不再需要自己去寻找GPU，不用担心选择哪种GPU（比如英伟达还是华为昇腾），也不必自己调优模型，将这些工作都交给了我们，从而大幅降低了使用模型的门槛。

其次，回顾过去，我们小时候吃蛋糕一年可能只有一次，因为当时蛋糕少而贵。现在，只要想吃，几乎可以随时随地享用。对于AI能力的使用需求也是如此，如今但凡我们需要AI能力的时候，我们在任何一个场景都可以随时随地使用，不需要为使用高昂的模型费用操心，由于模型的成本足够低，即便是大规模使用也能为大多数人所负担。

例如，对于AI Infra，作用就是解决其应用开发的上手门槛，以及大规模部署时的使用门槛。特别是我们知道有一个阶段是算力紧缺，算力资源相对紧缺且昂贵，有的应用开发者即便对推广产品很有兴趣，也会因为成本过高而却步。我们正是解决了这些问题，帮助用户在使用Token时不再为价格担忧，实现更快、更低成本的操作，这就是AI Infra带来的价值所在。

汤雄超：我想从技术的角度来解释一下Token流动。从技术层面来看，Token流动包括芯片内部的计算、从芯片到内存之间的传输，以及卡间的传输。什么是“更聪明的Token流动”呢？主要有两个方面：一是减少不必要的计算和传输，二是将必要的计算和传输做得更高效。从我们清程极智的角度出发，我们有两方面的工作。首先，我们扩大了Token流动的空间，使其能够在更大的集群中流动，而不仅仅局限于一张卡内。这样一来，流动的空间扩大后，就可能找到更优的流动路径或更聪明的解决方案。

其次，我们专注于系统软件的开发，包括从底层算子的边界优化到上层并行加速系统的构建。我们的目标是在这个大规模的流动空间中找到最聪明的路径，尽量只执行必要的计算和传输操作，并将这些必要的操作做到最高效。这就是我对“Token更聪明流动”的理解。

王兆洋：在这里面你需要做的是判断什么是必要的。

汤雄超：是的。

王兆洋：我观察到AI Infra领域有一个非常有趣的现象。由于大型模型的火热，一些基础设施技术开始受到人们的关注，融资也开始变得活跃，商业化迎来了良好的机遇。大家都知道AI Infra是“一座桥梁”，会连接模型与芯片以及应用与芯片。但我注意到在两位接受其他访谈时，经常被问及从你们的角度如何看待应用和芯片。然而，对于这座桥本身的技术细节，似乎没有人进行过太多的描述。

所以想先请袁老师谈一谈，这座桥本身有哪些技术的关键节点？同时结合硅基流动的实践，模型快速上线是如何实现的？这其中的技术细节能否为我们讲解一下？

袁进辉：目前我们认为市场上使用AI或创造AI存在两类机会，一类是与特定场景紧密相关做应用。另一类是与应用关系不大的底座，比如芯片、大型模型，以及Infra。Infra将模型、算力和应用连接起来，这其中包含了哪些技术问题呢？

我们以它解决了哪些需求角度来看，例如，有的用户需要算力，他们会评估哪种芯片最适合他们的场景。有时他们发现，他们想运行的模型在某些芯片上之前没有支持过，或者支持起来存在一些挑战，这时就遇到了一些问题。比如Infra解决的一个问题是如何在常见的芯片上运行各种模型以达到最佳效果，比如芯片适配技术，必须理解深度学习模型在每个芯片上应该如何实现程序。还有的用户可能需要模型具有非常强的能力，或者需要模型运行速度非常快，这时他们可能会选择小模型或大模型。我们知道模型结构有密集型的，也有Moe型的，他们会发现特别需要一个能力非常强大的Moe模型，这个模型可能一张GPU都无法容纳，优化运行存在一定难度。这时Infra也需要帮助用户，无论他们运行稠密的模型还是稀疏的模型，都能让他们快速迭代，进入业务并看到效果，对各种各样模型的支持，这也是其中Infra需要解决的一部分问题。还有，我希望模型运行得更快，同时不损失精度，我们在系统上经常遇到一些问题，我们使用低精度计算的方式，现在有一些方法可以让小模型达到大模型类似的效果，或者让小模型和大模型配合起来解决问题，而不是任何问题都直接交给大模型解决，这些问题也都属于Infra里面技术栈的问题。

硅基流动上线模型比较快，这里面新的模型出来，一般来说确实需要对新模型做一些适配或特质的工作。之所以能快速上线，有一个侧面反馈了原来做系统的开放性和适应性比较好，来了一个新的东西，不需要再做很多定制化的东西，就能迅速支持得非常好，这说明在系统上，我们的绝招，讲究所谓的抽象，就是要在纷纭复杂的变化中找到稳定和本质的东西。一旦把稳定本质的东西找到之后，未来无论怎么变化需求，都能迅速支持。我觉得本质上是这个原因。

王兆洋：我们无法预知模型将发布什么，但一旦发布，我们可以通过一个开放性极强的适配系统来提供加速能力给开发者。这个过程就是你刚才提到的抽象的过程。那么以一种朴素的理解，现在能够这样做是不是也是因为事物已经收敛，不需要抽象太多，每个模型之间的差异也不那么大，因此可以变得如此迅速。

袁进辉：模型结构现在已经收敛，基本上都是基于Transformer。在模型收敛之前，做系统的人擅长的就是抽本质。如今，抽本质的工作变得简单了一些，因为模型收敛了，至少对于稠密型模型是这样。当然我们也需要考虑未来的需求，比如MoE模型，以及上下文很长时可能发生的变化。至于在不同芯片上运行这些模型的需求，以及上层应用，比如RAG和Agent有特定的需求，这需要我们进行前瞻性的预判。确实，模型结构的收敛降低了我们工作的难度。

王兆洋：刚才和袁老师聊到的更多是关于推理相关的东西。我理解清程极智的技术背景似乎更适合用在训练部分，因为你们的技术起源是超算的能力。这里面也很有意思，过去超算能力为什么没有被AI Infra需要，这一波却可以变成一个创业公司，而且也活的很好，也能有很多需求和机会。这个请汤老师解释一下，大家可能不太理解。

汤雄超：我们是清华计算机系的团队，过去十几年都是做国产超算上的工作。为什么说AI最近有这样的需求，有一个原因，在过去是小蛋糕，到现在变成特别大的蛋糕了。在以前AI更多是单GPU，或者单机4卡，单机8卡就能解决的问题，但是现在已经成长为非常标准的大规模并行计算的问题，需要万卡，甚至更大集群规模解决它。这是我们观察到的AI算力需求的现状。

王兆洋：你们是否有进行推理工作？或者有相关计划？

汤雄超：实际上，我们推理和训练都有在做。之前提到了大规模计算的问题，AI领域现在面临的问题与超级计算领域曾经面临的问题相似，包括对国产化算力的需求。目前，国产芯片在推理方面的应用稍多一些，这是因为推理业务对硬件的要求相对较低，因此许多国产芯片从推理业务切入。我们观察到国内有不少芯片厂商在这方面做得不错，其硬件性能可以与英伟达的算力平台相媲美。但过去这些芯片并没有得到广泛应用，主要原因是缺乏算力软件的支持。因此，我们在推理方面也与算力芯片公司合作，发现在补全算力系统软件后，国产算力在推理场景下的性能确实可以达到与英伟达平台相媲美的水平，如果从性价比角度出发，甚至已经实现了超越。

从训练的角度来看，训练卡的要求确实更为复杂。我们在国产大型训练集群上实现了从0到1的突破，但要达到目前推理场景下与国外直接对标的水平，还需要进一步优化。

王兆洋：我这样理解是否正确，清程极智的业务无论是训练还是推理，都是帮助芯片进行软件开发，可能以国产芯片为主，帮助他们构建以前未建立的软件层。由于训练与超级计算技术更为接近，需要类似的技术门槛，因此训练是你们最核心的工作。但按照这样的逻辑，推理也有这样的需求，因此推理业务也会涉及。

汤雄超：您的理解非常准确。不仅仅是国产芯片，实际上所有算力芯片上面，都存在让token流动的更聪明的形态。之前我们在媒体上关于国产算力的报道更多偏向于训练方面，这部分的需求和困难较大，我们在这方面投入也相对较多。

王兆洋：我们刚才讨论了很多训练和推理的内容。汤老师之前在一次采访中谈到，训练和推理不适合用同一套方案解决，一体机是错误的方向。袁老师也转发了您的评论。

但我也注意到，业内在OpenAI的o1模型出现后讨论的一个话题是，训练和推理的界限在变得更加模糊。对此，我有几个问题想请教两位：首先，我们现在是否还需要严格区分训练和推理？o1模型的出现是否真的模糊了这个界限？如果是，这种模糊化会带来什么样的影响？可能要先请袁老师回答。因为大家知道您早期的公司是专注于训练，现在的公司又转向了推理领域。

袁进辉：o1模型出现后，至少在训练阶段也需要进行推理，因为它需要合成数据，这有点像更早之前的在线系统，一边有新的样本进来，这些样本是在线推理出来的。

让我用广告系统的演进来举个例子。早期的广告系统只能使用一周前的数据，而现在可以利用几分钟前的数据，实现对用户喜好和行为的实时响应。大模型也是如此，它像AlphaGo一样同时具备训练和推理的能力。

从底层技术看，训练和推理确实有很多共同点，特别是在算子层面和前向计算上是相同的。但差异也很明显：训练更偏向计算密集型，需要处理更大的批次，多张显卡需要步调一致地运行，对内部显卡和机器之间的高速互联要求很高。而推理端的技术创新主要聚焦于如何将存储瓶颈转化为GPU擅长处理的计算问题。

总的来说，训练和推理虽然有大量重叠，但各自也都有独特的技术挑战。这些问题都属于AI Infra的范畴，不过从商业化角度看，推理的落地相对更容易。

汤雄超：从Infra的角度来看，无论是硬件还是软件，并不是训练和推理完全互不相干，它们有共同的底座。我之前为什么说训练算力系统和推理算力系统分别设计，从训练负载和推理负载的技术角度来看，它们的需求特征是不同的，就像袁老师提到的，是计算密集型还是访存密集型。只要训练和推理的本质计算特征还没有发生统一，我们认为还是需要面向训练和推理业务分别构建最适合它们的算力系统。

回到o1的情况，我们观察到，这时它的推理需求量比之前这些模型要大得多。如果说未来还继续延续这样的趋势，我们会发现不仅仅是训练需要一个集群化的算力，可能推理在未来也会占据一个比较大的算力需求，也需要集群化的推理框架。可能最后会出现一个用于训练的集群和推理的集群，它们通过某种方式交换数据，一边实现训练，一边进行推理。它们都有自己最适合的算力系统。

商业化上的高峰，往往是创造力的低点？

王兆洋：两位刚才谈到的很多都是工程问题，换句话说，是一些辛苦的工作。但今天大模型的火热，人们其实是从算法模型的“颠覆世界”开始关心的。尤其GPT3、3.5、4，Sora那一波的时候，大家讨论的都是“一夜变天”。

其实在AI Infra领域，以前像袁老师做OneFlow的时候，也会强调说你要准备一个大招，比所有人都更早看到这个趋势，提前准备好迎接它的大爆发。但是现在不同了，到了硅基流动的时期，一切看起来都收敛的更小了。大招似乎不在是重点了。但与此同时，今天为什么会有两位公司的存在，其实也是因为AI Infra终于有了商业化比较好的机会。

这么看，是不是商业化上的高峰，往往一定也是创造力的低点，你们是这么看当前的形势吗？或者说，从行业发展来看，下一个颠覆性的突破还会出现吗？

袁进辉：首先，作为一家创业公司，我现在理解的是一切都要服务于商业化。

王兆洋：以前OneFlow也是创业公司。

袁进辉：对。以前也是创业公司，但我认为那是非典型的，它是技术上的追求超过了商业上的追求，那是挺奇葩的行为艺术。作为创业公司，一切都是服务于商业目标的，技术只是产品中的一个要素，这是大前提。

您刚才提到辛苦的工程问题，这确实是算法和系统之间的一个较大区别。我读博士时研究算法，后来工作一直从事系统和Infra。在算法领域，人们更注重聪明才智、创造性和想法。而在工程领域，耐心的要求更高，通常需要半年或一年的时间来验证一个想法、编写代码。系统层面的工作自然更多。在算法领域，如果有一个灵感或好的想法，可能几天就能验证。两类工作确实存在这样的区别。

从商业化角度来说，辛苦的工程工作反而更容易成为壁垒。如果是想法或大想法，意味着所有人都不会错过，比如今天我们讨论的模型结构，许多人都在研究Moe结构。在算法层面，很难成为公司的商业壁垒，因为所有人都会达到一定水平。而工程层面，它涉及工程量的积累，并不是每个公司或团队都有耐心或环境来构建这个壁垒。历史上，依靠算法成立的所谓的模型公司并不多。从软件产品来看，以前有数据库、操作系统、大数据系统，到今天出现了AI Cloud，这是我在这方面的理解，它不是劣势，反而可能成为标准化产品的壁垒。

王兆洋：我看汤老师您过往的经历，清程极智是一家很年轻的公司，我也很好奇你们的商业化想法。我习惯性会搜索AI行业里的CEO和创始人的Google Scholar，我看您的就停留在了18年，您有没有像袁老师第一次创业时那样，对技术本身还有一些痴迷，比如更具体到超算技术的突破上。

汤雄超：我的观点其实和袁老师一致，我一直就是研究系统的。这让我想起读博时候的经历：一个好的idea从构思到系统实现，往往需要半年时间，写几万行代码，这就是系统工作的节奏。创业做商业化落地，不能光靠好想法。能否把想法转化为现实，需要做大量细致的工作。对创业者来说，这种将构想落地的能力最为关键。

王兆洋：大家今天都很关心国产芯片的情况，但又了解的信息较少。之前有一家国产芯片的CEO给我看了一个图，是他们类似大规模集群训练的loss曲线，其实是很好的，但他们内部知道，客户也知道，但大家没有对外怎么讲。在这个过程中您觉得您有没有一些可以分享的观察？如何为国产芯片做更好的软件系统。

汤雄超：确实做系统非常辛苦，我们在做系统软件时，从一开始就会考虑到可扩展性和复用性问题。比如支持国产芯片，不可能对每一款芯片都重新做一套，底座留有非常灵活的接口，这样，每当一款新芯片推出时，我们能在短时间内完成适配支持。这也是我们多年的经验教训。包括我整个团队，大家都有做系统的经验，在这方面，我们在设计源头上就注重产品行稳致远的设计。

另外，从商业化推广角度来说，他们的进展和我们做系统软件一样，也是需要细水长流的事情，并不是今天发布了什么东西，第二天就突然怎么样，还是有一个大家互相接受的阶段。

王兆洋：今天从二位平台的数据来看，需求来自哪些开发者？画像是什么样的？

汤雄超：我们算力硬件这一侧，更多是国产芯片厂商或智算中心拥有者，他们最主要的诉求是真正把算力有效利用起来。我们能做的是提供一些好用的系统软件，帮助他们发挥硬件算力，这是算力这一侧的画像。

从应用侧角度来看，大部分是个人开发者或大模型公司，他们就两个诉求，一个是加速，一个是降低算力成本。我们关注到加速不仅仅是为了降低算力成本，另一方面也是为了提升用户体验。总体来说，我们接触到的大部分客户，基本上都是这方面的诉求。

王兆洋：你难得出来，我再多问一些关于清程的问题。在商业化方面，我们知道有另一家做异构的公司，他们想要联合各家一起打败英伟达，他们的商业化模式是绑着硬件或芯片卖服务。你们有其他的商业模式上的差异吗？

汤雄超：我们的核心能力集成在系统软件上，因此在交付形态上相对灵活。如果客户直接愿意采购软件，这是可以的；与我们合作运营也可以；或者我们还有线上模型推理平台，直接使用我们的云服务也行。总之，我们的整体交付形式都很灵活。

王兆洋：那么袁老师这边，你们观察到的开发者，是一些中小企业，还是一些大公司更多在使用你们的服务，还是个体开发者在使用？我看到你们还没上线自定义模型的推理服务。

袁进辉：现在是正在内测。

王兆洋：是因为看到这样一个需求在做，还是说之前重点还没放在这。

袁进辉：就像我们使用大模型的时候，一般大家有一个基本的三板斧，先看Prompt能不能搞定，搞不定的话，就看其他的。所以我们当时推出的产品的思路或者节奏，首先把标准化模型做好了，服务满意了，至少标准化模型已经服务一部分客群了，逐渐有个性化需求的，我们后续产品再支持。今天看云上我们推出的MaaS，是以开发者和创业公司为主。不光是开发者，还有做玩具的，做教育的，做陪伴的，还有做效率工具的，做翻译的，写代码的，上面都比较多一些。

另外很有意思，因为今天这个大模型API足够好用，也有很多不是所谓传统的开发者，是艺术家，是产品经理，产品经理也可以说他不会写代码，他可以非常容易自己创作一些Workflow等等，这块比较多。

王兆洋：自定义接下来会马上上吗？

袁进辉：现在有一些客户已经上线了，模型我们做一些托管，目前这个产品是有的。

算力通缩不存在，只是暂时的波动

王兆洋：最后有几个行业话题，因为你们是最一线的从业者，可以请你们给我们解释一下。一个是，今天很多人在讲，所谓GPU不值钱了。一方面英伟达市值在超过苹果，另一方面，我看有一个概念是算力通缩，那么这背后它到底发生了什么？这个事情是长期的影响，还是阶段性的波动？

袁进辉：第一个，确定性的事是算力的需求会继续往上涨，这是英伟达市值继续往上涨的基础。还有阶段性的，阶段性的原因在于说原来有些公司为了做训练囤卡，这些训练需求萎缩了一些，就释放出一些卡，同时推理对这些卡的需求，还没有完全消化。所以是训练减少了一些需求，而推理还没有完全把释放出来的卡消费掉。

同时还有一个原因，这个卡处在升级换代的阶段，比如说英伟达新一代的卡B200，快要上市了，基本上每到这个节点，它上一代卡，确实会贬值一些，因为大家都会去抢最新的卡，这是硬件阶段性波动主要的原因。

汤雄超：我补充一下我观察到的情况。现在我们说它价格下来，也体现出有一些场景算力短缺情况得到了缓解。这个确实也是分场景的，相当于我们现在观察到的，一般千卡以下零散的算力相对比较富裕，对于2000卡以上的大集群，它的算力还是比较紧缺的。我觉得并不是说现在算力的需求减小了，而是能被零散的算力承接的训练需求缩小，因为大家的训练规模都越来越大。如果你是一个卡在中间不上不下算力规模的话，就会出现比较尴尬的现象，真正支撑大模型训练来说，还是非常紧张的情况，包括我们接触到的，做训练的客户，也没有享受到降价的福利。

另外我也觉得这是短期的波动，因为我们认为未来推理的需求也会上来。我们还从市场上了解到，因为英伟达的GPU，它是一个优秀的AI算力设备，不仅仅是AI算力设备，有时候其他一些行业的需求，也会对算力市场带来一些扰动。所以一个比较好的做法，不要把鸡蛋都放在一个篮子里面，如果我们能构建一个多样化的算力平台，抗风险能力是比较好的。

王兆洋：最后一个问题，也是我突然想到的，刚才我们聊到英伟达，两位公司身上，有让我联想到英伟达的地方，清程极智是源自超算的技术，遇上了它很适合来解决的大模型带来的算力问题。而硅基流动这边，当时英伟达的CUDA最早做的时候，没人理解，但英伟达相信AI最终会变得很重要，您当时在OneFlow要憋大招的时候，也是相信有一天大规模的模型会变成主流。这个也让人联想到英伟达。那么这家公司对你们两位创始人，带来的启发是什么？

袁进辉：我也看了一些老黄的采访，他们做了很长时间冷板凳，有自己非常长期的判断，比如说他认为计算是一个永恒的主题，未来对世界的模拟，包括生命科学等等，它有好几条线，其中有一条线，AI这块爆发的非常大。启发是说，它确实有非常超前的洞察，我们作为创业公司来说，也需要对行业有一些更长期的判断，这个时候减少一些资源的浪费和少走弯路。

另外，就是需要聚焦。比如说对于生态的建设，以及持续在算力高密度计算这一块，持续的优势夯实起来，这也是非常值得学习的。作为创业公司来说，我们也希望能够在生态位中，或者这个链条中找到一个点，我们希望能达到最深，做到行业最领先，也希望发生这种情况。

汤雄超：我感受比较深的还是英伟达在一个比较确定性的方向上会坚持做很长时间。

就回到之前的问题，相当于是我们做创业，做工程，做商业化，是需要坚定的逐渐迭代的过程。现在都说英伟达的CUDA生态做得这么好，并不是第一天就这么好的，CUDA刚推出来的时候也是不行的，因为我2010年就开始做相关的工作，今天大家对国产的许多产品的吐槽，当时在CUDA身上都有过。我们实际上看到，做一个事情持续这么多年，最终成长出超出大家想象的能力。

王兆洋：感谢二位在这场的分享，有很多干货，值得行业一块讨论。谢谢二位。

头条号入驻

品玩有品好玩的科技，一切与你有关。

财经自媒体联盟更多自媒体作者

今日推荐优秀作者看点月榜

新浪财经头条意见反馈留言板

4000520066 欢迎批评指正

如何让token更聪明的流动起来？与硅基流动袁进辉和清程极智汤雄超聊聊关于AI Infra的一切

头条号入驻

小鹏似乎在造一种“比理想更厉害”的增程技术

腾讯开源“最大”大模型：如果你也相信MoE，那咱们就是好朋友

字节再发反腐及违规通报：辞退103人，11人涉嫌犯罪被立案

财经自媒体联盟更多自媒体作者

热文排行榜