无问芯穹全球首发千卡异构芯片混训平台 让AI基础设施像水电一样

无问芯穹全球首发千卡异构芯片混训平台 让AI基础设施像水电一样
2024年07月10日 19:29 IT时报

IT时报记者 孙妍

7月4日,在2024年世界人工智能大会(WAIC2024)AI基础设施论坛上,无问芯穹联合创始人兼CEO夏立雪发布了全球首个千卡规模异构芯片混训平台,集群算力利用率最高达到97.6%。同时,夏立雪宣布无问芯穹Infini-AI云平台已集成大模型异构千卡混训能力,是全球首个可进行单任务千卡规模异构芯片混合训练的平台,具备万卡扩展性,支持包括AMD、华为昇腾、天数智芯、沐曦、摩尔线程、Nvidia六种异构芯片在内的大模型混合训练。

“打开水龙头前,我们不需要知道水是从哪条河里来的。同理,未来我们用各种AI应用时,也不用知道它调用了哪些基座模型,用到了哪种加速卡的算力——这就是最好的AI Native 基础设施。”夏立雪认为,AI基础设施应像水电一样易取易用。

7月起,通过试训申请的用户,已可在Infini-AI上一键发起700亿参数规模的大模型训练。

打破异构芯片“生态竖井”

4个月前,无问芯穹Infini-AI大模型开发与服务云平台宣布首次公测,已有智谱AI、月之暗面、生数科技等大模型公司客户在Infini-AI上稳定使用异构算力,还有20余家AI Native应用创业公司在Infini-AI上持续调用各种预置模型API,使用无问芯穹提供的工具链开发自身业务模型。此次发布全球首个可进行千卡规模异构芯片混训的平台,是无问芯穹“MxN”中间层生态理念的重要成果。

作为大模型生命周期中不可或缺的两个阶段,训练和推理均需要强大的计算资源支撑。然而,与国际上模型层与芯片层相对集中的格局相比,中国的模型层与芯片层更加“百花齐放”M种模型和N种芯片。然而,大量的异构芯片形成了“生态竖井”,这成为构建AI基础设施的最大难点,也是当前大模型行业“算力荒”的重要原因。不同硬件生态系统封闭且互不兼容,即便算力集群众多,也难以实现有效整合与利用,对算力资源是一大浪费。

“据不完全统计,宣布拥有千卡规模的中国算力集群已不少于100个。”夏立雪分析道,由于担心过度依赖单一硬件平台可能会使企业面临供应链风险,而国产芯片的性能快速提升也为算力集群提供了多种选择,绝大多数集群已经或正在从同构转向异构。

无问芯穹的底层解法是,提供高效整合异构算力资源的好用算力平台,以及支持软硬件联合优化与加速的中间件,让异构芯片真正转化为大算力。近日,无问芯穹与清华、上交的联合研究团队发布了HETHUB,这是一个用于大规模模型的异构分布式混合训练系统,这是业内首次实现六种不同品牌芯片间的交叉混合训练,且工程化完成度高。夏立雪介绍,这项技术工程化的初衷,是希望通过整合更多异构算力,继续推高大模型技术能力的上限,同时通过打通异构芯片生态,持续降低大模型应用落地成本。

让天下没有难用的AI算力

“在开发大模型应用时也应像淘宝一样,自由选择大模型和芯片的组合。”夏立雪表示,为了让天下没有难用的AI算力,无问芯穹构建了“MxN”中间层的生态格局,实现多种大模型算法在多元芯片上的高效、统一部署。

截至目前,Infini-AI已支持了Qwen2、GLM4、Llama3、Gemma、Yi、Baichuan2、ChatGLM3系列等共30多个模型,以及AMD、华为昇腾、壁仞、寒武纪、燧原、海光、天数智芯、沐曦、摩尔线程、NVIDIA等10余种计算卡。

未来,无问芯穹还将继续突破异构算力优化与集群系统设计的技术上限,拓展模型层和芯片层的上下游生态伙伴,共同实现“MxN”的有效打通、利用和整合,构建真正适应多模型与多芯片的AI Native基础设施。

“今天说让大模型成本下降10000倍,就像30年前说让家家户户都通电一样。优良的基础设施就是这样一种“魔法”,当边际成本下降到临界值,就能有更多的人拥抱新技术。”夏立雪表示。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部