无问芯穹夏立雪:如何缓解大模型算力焦虑|Z Circle

无问芯穹夏立雪:如何缓解大模型算力焦虑|Z Circle
2024年04月09日 18:15 真格基金

Z Circle 是关于人的栏目。

人是一切创新的源动力。在过去的十二年里,真格一直专注投人哲学,连接起那些最真挚、勇敢、极具创新精神的人们。我们记录他们的故事和旅程,希望你能从中看见自己,也期待与你相识相知。

2023 年,真格基金 A 轮投资无问芯穹。

无问芯穹致力于提供行业最优的算力解决方案。发起人为清华大学电子系教授、系主任汪玉联合创始人及 CEO 夏立雪是汪玉教授的第一位博士毕业生,曾任阿里云用户增长产品技术负责人,负责过阿里云大语言模型的压缩加速、生成式 AI 模型芯片的等战略项目。

在近日的一次访谈中,夏立雪分享了对国内大模型落地阻碍的深度观察,以及无问芯穹对算力领域巨大需求与供给错配现象的解决方案。

01

算力行业的博弈

Q:大模型公司在过去的一年怎么解决算力短缺问题?现在大家还会有这种算力的焦虑吗?

夏立雪:大模型公司目前资金还是比较雄厚的,他们的主要焦虑是找不到符合他们规模的算力量,而且很多云厂商自己也在做大模型,进一步导致了云上可用到的算力很少,这也迫使不少大模型公司直接去买机器。

美国这一次的限制打得大家都有点措手不及,模型规模又还在增长,算力焦虑是会持续的。做一个 GPT-4 以上程度的模型,至少需要万卡规模的集群,没有这么多卡的人怎么办?

各大厂商、大模型创业公司基本上都想搭建自己的超大算力,但国内单集群规模能到 5 千卡以上的,也不是所有大厂都有。另一方面,推理的机器也在逐渐增长。

Q:因为算力太贵,现在是否导致一些分化的趋势了?

夏立雪:有的。

最早英伟达 H 系列芯片 5、6 万的时候,大家都愿意租来用。涨到 8、9 万的时候,很多人就要考虑考虑自己要不要这么大投入了。

现在价格虽然整体是没有继续上涨了,但还是处于试探大家干不干的那个边界线上。很多企业可能觉得我没必要去卷 GPT-5 了,我先去探索 GPT-4 甚至 3.5 能在哪些场景落地,大家的路径就逐渐开始分化。

Q:能否帮我们系统梳理下现在 AI 算力的价值链?

夏立雪:如果从完整的供应链来说,最上游是造算力的人,但其实这个行业本来利润没有那么高,奈何英伟达一家独大,相当于形成垄断。在这一层的玩家还有 AMD。

再往下是 IDC,就是把英伟达芯片那些硬件组合成一个集群的厂商,当于提供了数字时代水电煤这部分的价值。再往下,就是大模型公司,以及更下游的行业公司了。

但是还有另一种梳理方式,因为大模型本身是个技术突破带来的产业,所以大模型公司算是这个产业的基石,他们产出新的技术对下游应用产生影响,又产生新的算力需求对上游供应产生影响。可以看出这个产业的迭代是由大模型公司来驱动的,毕竟大家说起大模型时代,肯定都会说是 OpenAI 带来的,而不是英伟达带来的。

总结来看,算力是最重要的供应源头,模型是最先进的技术源头,这两者的连接效率就非常重要了。

Q:目前的行业现状是什么样的?

夏立雪:现在这个行业看起来好像既供不应求,又供过于求。

供不应求是整体市场上有一堆比大模型公司再往下游的、想要去用模型的公司,或者是基于自己的业务模型做行业落地的公司。这些公司他想要用算力,但又拿不到,拿到了他也没有办法把这些百卡、千卡裸金属很好运用起来的能力。

供过于求是许多算力拥有方也缺少这一层能力。

我们了解到各个地方的智算集群中存在着大量的算力,包括一些异构卡,但他们通常只会去修改物理裸机配置来服务客户——比如,要么把一组 100 台的机器卖给同一个客户,要么就空着等下一个大客户,不会把 100 台机器拆分成 10 组机器再分给 10 个客户,因为动态调整问题对于基建层的玩家来说太费劲了。

除了技术外,还要配置对应的销售运营团队。偶尔他们需要把一批机器分给两个客户,他们就得单独为这些机器组一个网络,把它变成独立的、物理管理的空间,这个成本是很高的。

Q:不过国内的这么多的云厂商,他们没有去做这个事?

夏立雪:云厂商本身业务重心是聚焦自身的。他有过去积累的渠道,更倾向于去自建非异构的算力集群,也就是市面上大家正在抢的这一批。

再加上云厂商们之前建设了非常多且复杂的业务场景要支持,还背着很多客户需求与盈利目标,如果要叠加上 M×N(多种模型与多种芯片)这种底层的多维度适配业务,对云厂商来说会是一个「灾难性投入」。

Q:要做这种智算中心的算力运营,难的点在哪?

夏立雪:第一,中间这一层云平台需要同时兼顾灵活性和效率,这不是实验室体系能够研发出来的,因为它需要纳管万卡规模的集群,是巨大的系统工程。所以在这种情况下,只有真正在万卡集群上摸爬滚打过的这些人才能够知道里面有什么样的坑,如何做出一个好的平台产品。

国内能把这样规模的卡管理起来的,主要都在大厂。我们团队包括从阿里、商汤出来的一拨人,在超大规模的系统搭建和管理上,有复合型经验。我们团结了很多算力行业的人,以轻资产的方式,为整个大模型行业提供计算基础设施。

02

如何用技术,缓解算力焦虑?

Q:无问芯穹现在的客户类型主要有哪些?

夏立雪:我们目前重点服务的客户有三类:大模型厂商,用大模型去升级自身业务的软件厂商,以及基于模型去做 AI 原生应用的小企业。

Q:你们的上下游分别是什么厂商?

夏立雪:我们上游的话其实就是这些智算中心,下游是做大模型的一方和使用大模型的一方,比如说法律、金融这些行业的客户。

Q:目前公司提供的是怎样的服务?

夏立雪:我们提供的是一个工具链,这个工具链包含了对他所用的这个模型和他所用的硬件进行一个最极致的适配,这个工具链可以使他已经训练好的模型跑到对应的硬件上,而且整体性能和性价比能提升。

我们有点像是大模型算力的一个淘宝套餐组合,让你去部署 AI 应用的时候,就像在淘宝上购物时选择不同的尺寸、不同的颜色一样,把模型和芯片组合起来。我们就像是把模型和芯片组合成了一个套餐,直接就给客户就可以用了。客户可以自由地去组合,去选择最适合自己的套餐,相当于是我们是连接了算力层和模型层,让更多的人能够用得上大模型,也用得起大模型。

Q:你们是如何解决你前面说的,算力焦虑和产业链上的利益博弈?

夏立雪:从算法到芯片,从芯片到集群,从模型到应用,是我们在技术能力上的三个层次。

我们首先是能够把单任务效率做到极致优化,包括训练和推理,其中推理的效率提升会更明显。

其次,我们把多个任务在多台机器之间调度,把整个集群的效率提升得更高,让每一个任务能够最快速跑完,并且让整个集群一直跑。把这两个方面叠加起来,我们就能够为客户提供最极致性价比的云服务。我们把大家已经接受、能用的芯片,把它的效率发挥到极致,能够用同样的成本干更多的事。

我们有一个用做这个文生图的客户,用到了我们的优化能力之后,生成图片的调用量能够达到 8 倍以上的,同时延迟也缩到了 1/10。

Q:你们现在的商业模式?

夏立雪:我们想做的是,让商业化智算中心的算力,通过我的这套工具,被更多的场景客户用起来,另一方面能让客户算力使用的性价比得到极致提升。我们按照 token 的方式算价格。

Q:相当于你们也有 CUDA 的接口,也有 AMD ROCm 的接口?

夏立雪:对的,我们是一个翻译的中间层,你说的这两个都是类似 N(芯片)这层的接口,而 M(模型)这层接口是 pytorch 的各种计算图,这两种语言之间的翻译工作是我们做的。不仅让你跑通、跑得正确,另外效率也是最高的。这是我们现在的核心的技术点。

Q:它怎么实现的?

夏立雪:原本多模型和多芯片之间的这个翻译空间是 M×N 的,是一个非常错乱的交叉组合,我们事先做了中间表达,相当于我在这两个语言的翻译过程中实现了一个自己的内部语言,我先翻译成自己的语,再翻译成相邻层的语言,这样的话相当于我就把这个线条的数量从 M×N,变成 M+N。这套核心技术能力,我们实验室从 08 年开始就一直在做。

Q:国内的那几家大模型公司,他们愿意接受这种模式吗?还是他们更倾向于自己搭一个集群?

夏立雪:国内大模型公司现在还是很需要更多算力伙伴的,因为国外的 META、谷歌都在做开源大模型,不断地发布新的模型来证明它在这方面的科学价值,竞争也是比较白热化的。不过集群分为训练和推理集群,训练集群太大了,不是我们的核心目标,我们跟大家的合作更多的是在推理上。

这样也形成了分工,在模型怎么用起来方面,他们是需要借力我们这样的生态伙伴来探索的。另外在推理这边对性价比的要求更高,因为它最终是算账。

比如,游戏行业上了一个大语言模型用于生成对话,我最后带来的用户体验的提升和留存,和这个成本之间是不是能够算得过来账,所以我们的优化价值也能帮到大家。

其实我们和大模型公司是有一个共同的使命的,就是最终推动大模型在千行百业落地,这里边需要大模型公司提供更好更高效的模型,我们来把端到端的系统效率做到极致。

Q:提到项目的发起人是汪玉老师,汪老师对这次创业的助力是什么?

夏立雪:我们项目的发起人是汪玉老师,他是我的导师。我在清华大学从本科一直读到博士毕业,加入阿里之后,也一直和汪老师保持着非常密切的交流。所以我对电子系整个产研体系有比较长期的关注和持续的理解,汪老师为我们公司带来了很多有用的技术与经验输入。

电子系在清华是学生最多的系,清华一共有 24 万校友,电子系有两万多,积累了非常多在这个行业发光发热的人。

汪老师鼓励学生毕业后创办一些创新公司,基于自己在大学受到的训练,把大公司、政府和高校通过这些创新小公司连接起来。无问芯穹也承载了一部分这样的期待。然后我们在技术方面的积累确实是源自清华电子系,包括我毕业的这个实验室的技术。

Q:你们和清华系其他 AI 大模型项目之间有没有联动?听说已经和智谱在推进合作了?后续的合作规划是什么?

夏立雪:这次大模型创业潮里,模型层有非常多知名的清华系企业。我们定位在中间层,因为整个市场是足够大的,配合就很显得很重要,我们希望能够去连通产业的上下游资源,把大家团结起来,一起把这个国内的 AGI 给落地到千家万户。

Q:英伟达的生态壁垒如何构筑的?

夏立雪:CUDA 是他的股价支撑点,是他最厉害的地方,但也是老黄最担忧的地方。因为大家在硬件能力上,本质上没有代际的差异,至少英伟达和 AMD 之间没有的。软件的这部分护城河,是英伟达靠着历史上非常重的资金和精力投入做起。AI 起来之后,他投入非常多的精力去支持这些开源生态,让大家都使用自己的硬件来开发模型。大概十几年,英伟达把这条路径打通了之后,他终于可以「躺着赚钱」了。现在大模型出来了之后,模型之间的结构差异变小了,生态的壁垒忽然变薄了。

原本需要几千个算子交叉组合成几万种以上的计算图的设计空间,有无数的人帮他做,这个壁垒特别厚。但是现在,这几万设计空间中只有那么 80 个算子组成的不到 10 种模型结构,就能够支持未来 80%的市场,那 AMD 就可以干,很多硬件厂商都可以干。

Q:您从大厂离开到自己创业,有没有一些思维的转变?科学家创业需要面临的困难和挑战是什么?

夏立雪:我已经算转型非常小的了。一方面是我在清华电子系读博的时候,博士课题是跟人工智能相关的,且电子系本身就是和产业走得非常近的细分专业。另一方面,我在阿里也不是纯做技术,而是做了内部的产品孵化,我需要去设计产品的目标、特色、投入、收益……相当于其实我已经在阿里内部做过一次成功的创业。

但是在大厂创业和自己出来创业又完全不一样,因为现在我要从海量的市场信息中,去调研、去定战略。不管从压力上还是从机遇上来说,和当年的能动空间都是完全不一样的,我觉得对我来说是一个最大的挑战。真的创业之后,我发现其实自己的时间会被拆得非常细碎,你不仅需要去看市场、抓商务、懂技术。大厂里面可能只需要负责最多不到 10 个任务,然后现在你可能同时负责 1000 个任务,怎么能够去完整地闭环这些事情,对于一个科学家来说是一个非常大的挑战。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部