“很快英伟达的垄断将被打破”

“很快英伟达的垄断将被打破”
2024年04月30日 15:43 AI科技大本营

责编 | 唐小引

“如果说 2023 年是科技行业人工智能聊天机器人年,那么 2024 年将是人工智能基础设施年。”数百亿美元正在迅速投入到支持人工智能繁荣的幕后技术上,且这种狂潮可能会持续很长一段时间。

微软、META 和谷歌母公司 Alphabet ,仅在今年的前三个月,在数据中心和其他资本支出上的支出合计就超过了 320 亿美元。这些公司均表示,并没有计划放慢人工智能支出。Meta 更表示,需要在人工智能芯片和数据中心上投入比之前透露的更多数十亿美元的资金。

AI Infra和大模型基础设施正在成为全球热议的话题。在刚刚结束的2024全球机器学习技术大会上,有关AI/LLM Infra的与会嘉宾,也分享了自己的相关观点与实践经验。

MiniMax用云实现规模效应,让效果和收益最大化

4月中旬,MiniMax 发布万亿参数MoE大模型,这背后就需要强大的基础设施技术支持。在 2024 ML-Summit 上,MiniMax 技术总监星龙带来了《大模型 AI Infra 挑战与实践》的技术分享。

MiniMax 技术总监  星龙

星龙表示,基于灵活性跟成本的考量上,MiniMax 根据以下原则决定哪些业务需要留在云上,哪些要跟云厂商去合作:

资源角度,MiniMax 把所有的在线的业务,包括CPU服务器、中间件及整体架构全部放在云上。星龙认为,对于业务来说,其实快速发展和它的高效和稳定是第一要义,其实 CPU 资源作为一个并不稀缺资源,对于云的储备的逻辑和规模效应,具备一些成本上和灵活性上优势,在云上非常容易开出百万盒这样量级的弹性资源。

在 GPU 上,MiniMax 把部分场景迁移到IDC里。在云上 GPU 也作为一种稀缺资源的存在,各种原因让GPU上云丧失了灵活性和成本优势。因此,MiniMax 考虑将特定能力迁移到 IDC 。

从基础组件的角度来说,用云可以达到规模化效应,使得效果和成本收益最大化。

从成本解决和规模化部署上来看,云更有动力和更有能力去优化。云有众多客户以及一个巨量的规模,在此规模下,人力的投入成本完全可以被摊薄,成本也是云的核心的考虑因素。

云的定价和通过技术优化能够带来的成本的下降,可以直接影响到其运转逻辑。所以从驱动力的角度来说,星龙认为云是更有驱动力和能力去做好 Infra ,所以MiniMax并没有选择基础设施的大额投入而直接选择了用云。

最后,从业务架构的角度来说,MiniMax 与多家云有非常不错的合作和协作。云在这里边作为一种载体,是一个封闭的、但内部开源的社区,供人们交流方案及设计思路,本身在架构设计上也能给大家提供更多的视角和更充分的讨论空间。

在整个训练的全链路去讲,所有的里程其实先取决于数据。

在数据分布中,存在大量多模态和无结构化数据,以及工具链与技术栈之间的差异,处理这些混合资源需要用GPU开加速,并提升处理效率。MiniMax 的解决方案是半结构化的场景保留 Spark、非结构化场景使用 Job 作为灵活性的补充,并逐步改造为 Ray,以解决计算效率和迭代效率的问题。

在数据处理中,资源供给是制约数据处理速度的关键问题。从集群维度来看,需要在多个集群之间建立统一入口,以便更好地调配资源;从时间维度上,要充分利用好不同集群的空闲时间。在单机资源维度,也要利用好空闲的 CPU 和 GPU,以此来提升数据处理的效率。

存储解决方案上,Posix 文件协议为主,提供 HDFS/S3 协议;远程缓存以及本地高速临时读写。

大规模训练集群构建环节,调度层架构中,通过队列控制和分发统一平台入口层;集群层上基于 Volcano 二次开发的批调度器来作为资源分配的组件;物理资源层只用设备插件(非虚拟化),Kubernetes 来管理裸金属资源。网络架构采用 FatTree 结构, IB/RoCE;NCCL 统一封装, 针对网络特点/故障做优化。

关于未来业务展望,星龙表示,MiniMax 在以下三个效率层面会逐步优化提升:

  • 机器效率 : 优化训练效率, 做 Profiling 提升训练框架的训练效率;提升模型 MFU;调整机器排布和优化通信算法来降低通信耗时。

  • 工作效率 : 故障频繁导致人的运维比例高;技术栈不匹配导致存在学习上手成本;技术选型/资源限制导致无法选择更加灵活的方式。

  • 组织的效率 : 固化好习惯、具备传递的能力;技术选型/资源限制导致无法选择更加灵活的方式。

如何迎接推理算力爆发时代的到来?

“推理就像2000年的互联网,目前还没有普遍使用,5年之后将迎来爆发。” PPIO 联合创始人 & CTO 王闻宇在大会演讲上表示,他带来了《如何做到算力基建和推理优化的“软硬兼施”与创新突破》的主题技术分享。

PPIO 联合创始人 & CTO   王闻宇

“那么,我们如何迎接推理算力爆发时代的到来?”

王闻宇表示,当下,推理面临成本贵、大模型参数越来越大、多模态模型让推理成本再提高2个数量级、推理效率低、业务场景丰富但落地链路长等一系列现实问题。如何能把推理成本降下来?他分享了分布式云与 AI 推理加速两个方法。

分布式云方面,充分动员市场的社会、经济、技术三大驱动力,以获得更便宜的生产资料,包括 GPU 卡与电力能源等。

AI推理加速方面也存在巨大空间。推理体系优化目标包括,降低首词时延与延逐时延,增加吞吐量,以降低成本提升推理效率。

显存、算力、带宽,是制约性能的三要素。对此,派欧云PPIO做了推理优化,即算法、系统、硬件的协同创新,包括算法优化、统一推理框架以及硬件适配。

算子融合基础上,重点关注注意力及 KV-Cache,提高每次数据搬运的计算效率,以虚拟内存的方式管理显存来减少显存碎片,采用 Continous Batching 减少无效显存占用以提高显存利用率,共享 Context 来减少计算量和显存开销,混合量化来压缩模型以提高显存利用率。

此外,采用稀疏化和硬件化的措施:稀疏化加速 HyperAttention 提速效果显著;稀疏化计算,权重稀疏,减少计算量,KV Cache 稀疏已减少存储,可支持长上下文窗口。

在这方面的实践上,派欧云推出了派欧算力云 AI 算力产品,产品包括 GPU 算力集群、GPU 裸金属、 GPU 容器和 GPU Serverless。通过提供丰富的 GPU 型号、极致的性能优化和广泛的算力供给,为新一代生成式 AI、云渲染、机器学习和加速计算等场景,提供高性价比的算力服务。“对标大厂,单位算力推理成本下降10倍。”

最后,王闻宇凭借自身连续创业经验,回顾了过去30年在线音视频的发展,他指出,网络传输成本的逐年降低和音视频编解码压缩率的不断提升,成为推动行业发展的两大关键力量。

同样在AI领域,王闻宇表示,未来推理成本将大幅下降,“‘Affordbility’ is all you need”。

分布式训练对 Infra 的挑战在哪?

“分布式训练对 Infra 的挑战有三点:节点规模越大、作业的故障率越高,如何快速扩容的挑战;

节点规模越大、通信开销越大,如何提升训练速度的挑战;模型越大、显存需求越大,如何提升显存利用率的挑战。”蚂蚁集团 Al Infra 技术专家王勤龙在技术分享主题演讲时指出。

蚂蚁集团 Al Infra 技术专家  王勤龙

王勤龙目前负责蚂蚁集团的 PyTorch 大模型分布式训练引擎,为蚂蚁 AI Infra 开源项目 DLRover 的架构师,专注于打造稳定的、可扩展的和高效的大规模分布式训练系统。他在本次大会上带来了《 DLRover 训练故障自愈:大幅提升大规模AI训练的算力效率》技术分享。

大模型训练中,包括训练样本数据集、Transformer 架构、预训练、模型微调、AI 应用几个环节。这其中面临着模型尺寸越来越大从而带来的分布式训练对 Infra 的挑战。那么如何应对上述的挑战,王勤龙分享了蚂蚁 AI 工程技术栈实践。

训练故障自愈:将千卡分布式训练有效时间占比 > 97%,降低大规模训练故障导致的算力浪费。

训练优化 ATorch:自动根据模型和硬件选择最优的分布式训练策略,千卡(A100)集群硬件算力利用率 > 60% 。

训练优化器:相比 AdamW 提升 1.5x 的收敛加速。相关成果分别发表在 ECML PKDD’21 ,KDD’23,NeurIPS’23。

显存与传输优化 GLake:显存+传输一体化优化和全局显存优化,将训练显存需求降低 2-10 倍,成果发布在 ASPLOS’24。

“故障是导致算力浪费的一大重要原因。”王勤龙表示,这是由于故障频繁且排查费时长、Checkpoint 保存与回滚开销大、千卡训练65B 模型耗时分布等因素导致。

他通过 Meta 训练 OPT-175B 真实案例来说明这一点,其使用 992 80GB A100 GPU,共124台8卡机器;按照 AWS 的 GPU 价格,每天需要耗费约70万;训练 2个月内,故障导致挂了至少35次;无故障下预估需要33天,实际却运行了2个月。

对此,DLRover 训练故障自愈功能可支持 GPT、LLAMA、VIT、GLM AI模型;采用分布式训练框架,包括 Atorch、DDP、FSDP、DeepSpeed、Megatron-LM,通过Flash Checkpoint 快速导出;分布式作业包括 ElasticJob 弹性调度,以及 ElasticJob 和 Kubeflow/PyTorchJob 节点检测,分布式集群采用 Kubernetes Cluster,AI 芯片支持英伟达及 Ascend 910、含光 PPU 等国产芯片。

DLRover 弹性容错训练,为 Master-worker 架构,Master 部分包括节点调度、节点状态监控、动态组网编排,Worker 部分管理训练子进程、分析 cuda event、获取错误栈。DLRover 故障检测氪完成异常诊断、自动节点检测、自动扩缩容。错误日志诊断与报警上,DLRover 可自动收集训练进程的错误,聚合所有rank的错误栈诊断并报警。故障码诊断上,DLRover 可根据 Pod 的退出码识别故障原因并自动恢复,支持用户根据退出码自定义处理机制。

DLRover 在启动训练之前会在每个节点上执行,GEMM 和allgather 检测节点是否正常,不正常则隔离;支持各种 AI 处理器的检测,如 GPU,Ascend-NPU;支持自定义检测脚本来支持 AI 处理器。

王勤龙还阐释了扩缩容的必要性。节点隔离后可能导致可用节点减少,机器修复后可用节点增多,需要手动修改训练节点配置,扩容可带来可用节点减少后训练自动缩容、新节点加入后训练自动扩容、整个过程无需人工干预的好处。

大模型 Checkpoint 的特点包括,保存 Checkpoint 时需要停止训练,模型很大会导致保存时间长,比如176B Checkpoint 约 2TB。因此,大模型常规 Checkpoint 的挑战包括保存间隔短,保存会占用大量时间,而保存期间训练停止;保存间隔长,故障恢复后回滚 Checkpoint 浪费大量迭代。

对此,DLRover Flash Checkpoint 可通过内存导出、异步持久化、断点存续、内存备份等环节,快速save/load。

与 Megatron-LM 相比,DLRover 并行导出 Checkpoint 具备节点都参与保存和加载、无额外通信和内存需求,以及单节点保存参数量小、持久化时间短的优势。

DLRover 支持开源与开发者共建上。已发布的开源版本有:

V0.1.0(2023/07): k8s/ray 上 TensorFlow PS 的弹性容错和自动扩缩容。

V0.2.0(2023/09) : k8s 上 PyTorch 同步训练的节点检测和弹性容错。

V0.3.5(2024/03): Flash Checkpoint 与国产卡故障检测。

DLRover V0.4.0 预计今年6月发布,性能将在运行 hang 检测与性能监控、拓扑感知调度与 rank 重排上有所提升。

王勤龙表示,DLRover后续规划上包括以下四个层面:

  • 节点调度与管理:通信拓扑感知调度,降低 AllReduce 通信时顶层交换机的流量;硬件 Metric 收集与故障预测。

  • 编译优化 lynx:计算图调度优化,达到最优的通信与计算重叠,隐藏通信时延;SPMD自动分布式训练。

  • 训练优化框架 ATorch:RLHF 训练优化;分布式训练的初始化加速;自动训练加速配置 auto_accelerate。

  • 国产卡训练:将故障自愈、训练加速等功能扩展到国产卡上;提供国产卡训练的最佳实践。

开源地址:

DLRover:https://github.com/intelligent-machine-learning/dlrover

GLake: https://github.com/intelligent-machine-learning/glake

曙光存储自研 AI 大模型,加速行业应用落地

“在算力、算法、数据这 Al 三要素中,数据的影响力激增,数据质量高低决定大模型智能化程度。曙光存储自研 XDS 技术,提升AI大模型训练效率,加速行业AI应用落地。”中科曙光存储产品事业部副总经理、曙光存储公司副总裁杨志雷,带来了曙光 AI 大模型存储实践分享。

中科曙光存储产品事业部副总经理、曙光存储公司副总裁  杨志雷

从文本生成到文生视频,AI 大模型技术迭代开启加速模式。杨志雷认为,在此趋势下,四个层面表现出技术收敛:

  • 模型基础架构收敛:由 CNN/LSTM/GAN 等多种架构,收敛到基于 Transformer decoder 架构。

  • 主流模型数量收敛:由数万小模型,收敛到主流基础大模型10~20个、外部开源可获取约5个的模型数量。

  • 客户自研算子收敛:由客户自定义算子数量巨大、适配优化难度高,收敛到客户自定义算子数量可控。

  • 主流开发框架收敛:由 PyTorch、TensorFlow,Caffe、飞桨等多框架,收敛到 Pytorch 框架为主,占据90%以上。

杨志雷表示,AI大模型行业落地加速且愈加“实用化”,离散小模型汇聚到基础大模型,一年内行业通用场景数据可支撑通用场景大模型,2年内生产场景核心数据将支持形成行业生产场景大模型。

场景需求上,杨志雷判断,数据的质量愈发重要,作为高质量数据集载体的存储系统成为大模型核心基础设施。他强调,缩短数据读写时间是提升训练效率的根本需求,其中 Checkpoint 期间训练是中断的,需要提高吞吐,使 Checkpoint 耗时尽量小,以提高计算资源利用率。

大模型给数据基础设施带来的全新挑战,包括超大规模数据预处理耗时长、模型训练算力空载高、行业数据应用存在风险,由此带来的存储诉求有数据生命周期中智能分级与融合协议、访问低时延、高速数据读写、存储原生安全等问题。

曙光存储从行业标准流程范式需求,提炼出企业级AI存储解决方案诉求,推出了丰富的产品系列,包括分布式存储 (OStor 系列、UStor 系列)、存储方案产品与服务、集中式存储、全国产化存储,覆盖先进计算、运营商、金融、科研教育、能源勘探、生命科学、云计算、自动驾驶多个行业需求。

曙光AI大模型存储解决方案在异构融合上,单集群支持多模态数据完整开发生命周期,千亿级文件存储与智能管理;性能上支持计算节点本地高速缓存应用,XDS 数据加速:基于 DMA 缩短 I/O 路径,面向 GPU DirectStorage 优化;原生安全上,存储节点内提供芯片级安全能力,提供安全可靠集群存储服务。

曙光存储 AI 大模型存储解决方案,面向 AIGC 多种业务场景,根据 Dataset 大小、性能需求,ParaStor 提供基于客户端 MEM、NVMe SSD 等高速介质的多级缓存加速方案。缩短数据操作耗时,加速 Checkpoint 数据写。

其 XDS 核心技术,在缩短 I/O 路径上表现优异,在用户态提供 xdsfile SDK(开发工具包),与 libcufile 交互,确认文件系统注册信息,启动 GDS 数据传输方式,性能提升3倍以上,支持 GPU 多通道。

AI 服务器通常会有多路 GPU 和 IB 卡,曙光存储增加存储系统客户端多路径支持,能够让多个 GPU 都通过最佳路径读写数据;GPU 与多网络接口间通信速度不同(与在PCIe中的连接拓扑有关),IO 请求,要与“最短路径” 的网络接口进行数据传输;在“优先路径”不可用的时候,也可以从“次优路径”发出。

其逻辑节点的数量根据集群规划确定,一个物理节点可以加入多个逻辑节点组,各个物理节点上的逻辑节点可以互为主备;通过间接索引,可以让一个目录包括大量元数据文件,实现大容量目录;目录进一步分片,将目录元数据散部到多个逻辑节点,进一步扩大容量,将负载分担到多个逻辑节点组。硬件加解密引擎适用于大数据包(4K)场景,存储加密、安全网关等,支持国密指令集。

在客户的定制需求实践上,曙光存储帮助用户提升自动化代码开发与多模态交互能力,可用于文本生成、语言理解、代码生成、逻辑推理、代码生成、补齐、纠错、解释和单元测试生成;ParaStor 加速大模型训练平台相比传统 SSD 混闪文件存储,分钟级写入 3TB CKPT 数据,整体训练效率可提升 50% 以上。

存储与互连带宽成为大模型技术栈的关键性能瓶颈

“长文本/视频等大序列大模型,模型层间的数据传输总量明显超过模型权重,对于存储与互连带宽的要求有数量级提高。在大序列大模型的需求带动下,向量数据库成为计算的外脑,长文本/视频数据的加载速度限制了算力的有效利用率,存储与互连带宽成为大模型技术栈的关键性能瓶颈。”千芯科技董事长陈巍博士在《视频大模型架构解析及其芯片级训练部署挑战》的技术分享中表示。

千芯科技/中存算董事长  陈巍

首先,陈巍阐释了弱 AI、通用 AI、超级 AI 的概念区分,目前我们正处于走向通用AI的阶段。

视频大模型发展历程

当前,视频大模型(VLM)成为大模型新热点,大模型即大语言模型(Large Language Model)目前主要基于 Transformer 架构;目前大模型的研究趋于成熟,考试能力可以超过本科生的平均水平。

陈巍总结道:之前的多模态 GPT-4 是让大模型睁开眼看静态世界,那 Sora 就是让大模型体验这个世界的变化和规律;随着技术的进步,大模型可能逐步具备更强的认识世界的能力。

陈巍博士从 Sora 等视频大模型的架构分析,说明大模型发展趋势下存储和互连带宽的重要性。

目前分析 Sora 的主干架构是扩散 Transformer,前后端使用了 VAE 或 VQ-VAE-2 进行压缩。扩散 Transformer 由 ViT(Vision Transformer)与DDPM或RADM组成。也就是说,

Sora≈DiT+VQ-VAE-2 = ViT+DDPM/RADM+ VQ-VAE-2。

预估 Sora 模型整体架构包括:

  • 时空压缩器先将原始视频映射到潜空间;

  • 然后,ViT 处理标记化的潜空间表征并输出去噪的潜在潜空间表征;

  • 以类似 CLIP的映射机制接收 LLM 增强的用户指令和潜空间视觉表征,以指导扩散模型生成风格或主题视频。经过多次去噪,获得生成视频的潜空间表征,然后使用相应的解码器映射回像素空间。

视频大模型的关键技术,包括多尺寸视频输入处理 NaViT(Native Resolution ViT)、VQ-VAE 的向量空间压缩与 VQ-VAE-2 架构、时长扩展技术(EGV)、旋转位置嵌入(RoPE)、LongRoPE 与 Position Skip-wisE (PoSE) 训练方法。这些技术的引入对计算系统提出了比以往更高的要求。

特别是2024年,用户需求逐渐由短文本短视频转向长文本长视频。Sora等视频大模型和长文本大模型都属于大序列大模型。其特点是模型层间的数据传输总量大,明显超过大模型权重。大序列大模型对于存储与互连带宽的要求与以往有很大的区别。

视频大模型训练与部署面临的主要挑战包括:

  • 数据库与存储带宽重要性升级:由于视频大模型关联的数据量巨大,对于数据库与存储带宽的要求明显超过了以往。

  • 存储与互连成为新瓶颈:在大序列大模型的需求带动下,数据库成为计算的外脑,长文本/视频数据的加载速度限制了算力的有效利用率,存储与互连成为技术栈的主要性能瓶颈。

从训练角度看,Sora 的训练包括文生图预训练(也包括图生图)、视频生成预训练、视频生成的微调三个阶段。Sora 使用视频压缩网络(Video Compression Network)来“压缩”视频,将图块转换成统一且信息更小的形式,即低维或者压缩潜空间,并重构为时空潜图块。陈巍表示,这一压缩非常重要,因为压缩后的图块可以大幅降低训练与推断的计算负荷,使 Sora 能够在训练过程中更加高效的学习海量数据。

从训练过程看,Sora 等 DiT 类文生视频模型的训练对序列并行性有更高的要求,其训练具有以下特点:

  • 与语言类大模型对比,DiT 模型参数量可能较少,但序列可能很长,节点之间的通信和存储极容易成为瓶颈;

  • 由于目前 DiT 模型规模相对较小,因此需要重点提升节点内的序列并行性。

例如最近推出的大序列大模型的训练方法 FastSeq,适用于大序列和小规模并行的新型序列并行训练方法。与传统的模型并行或参数并行不同,该方法侧重于为每个 Transformer 层仅使用两个通信运算符来最小化序列通信资源占用。并使用 AllGather 来提高通信效率,采用异步环(Async Ring)将 AllGather 通信与 QKV 计算时间重叠,减少等待,进一步优化性能。

“算力与数据带宽共同决定 AGI 进化的速度。”陈巍总结出以下三点:

  • 视频大模型的带宽瓶颈凸显:相对而言,视频类模型需要更大的训练数据集,数据集大量数据的存储和传输会成为计算架构的主要瓶颈。

  • 互连瓶颈严重制约模型训练速度:目前传统 GPGPU 集群是基于光交换机/路由的点对点传输方式,这类传输方式导致大量数据在光交换机/路由处集中,形成传输瓶颈。另外传统 GPGPU 本身的集中化存储模式也不利于大量数据的交换与通信。

  • 新架构能否转向优化带宽:因此 Sora 等视频大模型技术的大量应用,必然对现有的计算芯片,包括 GPGPU 和各类 AI 芯片提出更高的数据带宽要求。新架构或许能更好解决带宽问题。

从芯片到集群的5级存算一体技术栈

鉴于传统 GPGPU 编程模型的互连效率偏低、互连成为集群训练的主要瓶颈,陈巍阐释了从算法到芯片的大序列模型训练与部署方案。

  • 针对大模型计算的 Soft Sparse Ring 计算方案,即整合软稀疏化计算(CPU与AI芯片协作)与 Ring Attention。通过软稀疏化计算方案,计算的稀疏部分卸载到CPU上,AI 芯片(含 GPGPU )仅进行稠密计算。通过 Ring Attention 减少访问外存的消耗。该计算方案可明显减少大模型的 Inference 和 Training 时间,降低计算平台的综合成本。

  • 从芯片级存算一体到集群级存算一体的技术整合。千芯科技与合作方共同推进5级存算一体的技术架构解决方案,从芯片级、封装级、接口级、互连、集群级应对视频大模型和长文本对于带宽的多种挑战,陆续推出三代存算一体计算卡,其中第三代支持大模型+片上 RAG/Embedding。

与合作方共同推出的企业级大模型服务器

国产硬件芯片如何做好推理优化?

“未来推理优化有以下几个方向:更小的终端模型、更极致的压缩、两阶段分离的推理范式和异构计算环境中做更好的调度。”清昴智能科技 CEO 关超宇在《MLGuider:面向国产 AI 芯片推理的优化与实践》技术分享中这样判断。

清昴智能科技 CEO   关超宇

关超宇概括了目前推理市场的现状:大模型已成为新时代的“水电煤”,底层技术革新带来基础设施结构性调整;随着各家基础模型以及开源模型的逐渐发展与成熟,模型推理需求量将逐步增长;一般来讲,一个成熟稳定的AI业务,其推理和训练的的比例大约在7:3。

他总结道,国产芯片部署大模型的现状与挑战存在于三个方面:

  • 参数量大,推理延迟、成本居高不下:大模型往往拥有数十亿乃至成百上千亿参数,推理延迟往往无法满足日常需求(大于15-20 tokens/s),靠堆叠更高算力来降低延迟将带来巨大的服务器成本和电力成本。

  • 高并发、高吞吐问题:简单的部署方案并不能满足多人同时在线使用的要求。

  • 高端硬件受限,平民化、国产化难:高端卡进一步受到美国制裁,而低端卡算力受限、国产显卡工具链匮乏,部署大模型存在诸多障碍。

为此,关超宇的清昴智能科技推出 MLGuider,这一面向多芯片的统一推理框架。该框架由模型层、优化层、调度层、运行层、算子层、硬件层构成。

在算子层级的性能优化上,MLGuider 进行了跨硬件多端算子重构:构建大模型IR,实现模型和硬件的前后端分离;通过模板展开和自动机器学习,实现算子的“硬件化”优化。此外,MLGuider 通过融合多个算子,减少计算核启动的时间,以及减少中间过程中不必要的数据搬运。

在框架层级的性能优化上,MLGuider 实现了显存管理与复用、多进程异步分离,以及 pattern 复用。

在调度层级的性能优化上,进行并行解码、模型混合量化、注意力机制优化的升级,提供多模型服务。

在某国产 NPU 平台上,同等精度下,MLGuider 框架可以提升20+倍吞吐量,以及降低将近10倍延迟。该方案已上架国产 NPU 云,支持线上使用。

在某国产GPU平台上,MLGuider 框架在同等精度下相比于厂家 vllm 可以提升50%吞吐量,以及降低近40%延迟。该方案已交付至某 AI 应用客户以及某云厂商。

作为 CEO,关超宇介绍,自己的清华系创业公司清昴智能科技,将持续致力于硬件到软件全栈产品矩阵,加速企业大模型投产落地。

团结起来建立开放生态,打破巨头垄断

在圆桌论坛上,Athena labs CTO 王兴明与陈巍、关超宇、王勤龙、王闻宇几位嘉宾坐下来聊了聊关于“AI Infra 大模型基础设施”这一议题,当前面临的问题和各自领域的观点预判。

AI Infra 大模型基础设施  圆桌论坛

王兴明概括道,陈巍、关超宇、王勤龙、王闻宇四位嘉宾,有人做芯片的,有人做算子优化,还有做分布式训练、做推理优化,形成了一个有关 AI Infra 的产业链,领域扩展到全行业交易范畴。

面对更加复杂的芯片环境,面对更加复杂的计算单元和计算的组成,王兴明让每位嘉宾阐述了各自领域当前最重要的问题所在。四位嘉宾都认为,国内面临的最大问题是生态,其中包括生态的建立和生态的垄断。

陈巍表示:“计算成本过高,抑制了人工智能的发展速度。他以英伟达举例,该公司在半导体领域有70%以上的毛利,领先了92%的企业,市值也是破了万亿,AI 产业中大部分的利润都被英伟达获得。”

对此,王闻宇表示:“把廉价的生产资料,结合推理加速方案,帮大家把单位场景时推理的成本就是差大概10个亿以上是我们在做的事。”

王勤龙表示:“把先进算力转化成高效训练的效率,中间有很多 Gap。芯片算力如何转化成训练效率,国内国外大家都在贡献英伟达训练的生态。国产训练效率的提升,也要在各个行业做定制化的生态。国产芯片如何去发展生态,是芯片领域一个最重要的问题。国产芯片的效果,还需要更多模型训练生态的贡献。”

关超宇表示:“国内面临的最大的是生态问题,跟华为一样。英伟达的壁垒、优势主要来自于其软件生态长时间的积累。在国内来讲,追赶有很大难度。对国内开发者来讲,还有一个不友好的是,每层的技术栈都不一样,每家的底层技术框架都有很大差别,需要适配和迁移,还要做更深层的优化。中短期发展来讲,如何统一多样的产品让大家方便使用,也是对国内形成统一生态是有挑战的。”

“当我们做到中间层之后,能解决一些适应性,但是性能无法在多供应商、多标准的情况下做到统一,这是我们在国内当下 Infra 的一些困境。”王兴明总结道。

陈巍补充道:“大家都在关注生态问题,但是光生态本身并不成为最大的问题,最大的问题我认为应该是生态的垄断,不管是软件和算法应用生态垄断,还是半导体设备和光刻机/原料的垄断,其实这两个垄断对中国影响还是非常大的。”

为此,陈巍呼吁:“大家团结去推动生态建设,使得AI计算生态更加开放、更加开源,使更多的使用者受益,也就很好解决了算力贵、不好用及碎片化的关键的问题。”

在对外来的展望上,大家都对国产竞争力的提升抱有积极的态度。

“中国能够跑出来最先进的模型及算力芯片企业,会逐渐影响 Infra 生态,面对中美技术生态过渡,中国本土的企业,很可能产生更大突破,对世界产生更新的贡献。”陈巍谈到。

“多模态模型会越来越成熟,国内的多模态应用也会越来越多,推理 Infra 会向多模态做更多的优化和迁移;数据中心场景上,往边端上的迁移需求会增加,在端侧会有更多AI形式及应用出现;国内商业基建和数据中心基建上,国内 MaaS 和 PaaS 层面逐渐增多,大家获取 AI 的成本也将降低。”关超宇表达了以上三点趋势。

“大模型已经跑出百卡、千卡、万卡的领域,国产卡跑一个千亿或者万亿的模型肯定会出来,国产开源大模型也会出来,打磨后肯定能兼容市面上的主流模型。”王勤龙表示。

“一年以内的时间,推理的成本会结构化地下降。在国产算力以及国际范围内的公司的挑战下,英伟达在推理上的领导地位也将很快被打破。”王闻宇预判道。

团结起来,构建 Infra 开放生态,协力打破巨头垄断,国内 AI Infra 与大模型基础设施的崛起世界之时并不遥远。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部