GPU互连,ALink System破局

GPU互连,ALink System破局
2024年08月26日 09:08 记经典时刻

来源:半导体行业观察

随着生成式人工智能的蓬勃发展,尤其是大语言类模型,对AI基础设施提出了更高的要求,特别是AI系统 scale up互连技术。在2024年8月8日OCP开放计算中国峰会上,来自阿里云的超高速互连负责人孔阳博士介绍了阿里云发起的Scale Up开放生态ALS(ALink System,加速器互连系统)。为了进一步了解Scale Up和ALS系统,我们和阿里云孔阳博士进行了一番深入交流。

AI大模型发展下互连技术需求

从算力角度,毫无疑问,计算需求爆炸式增长是AI应用发展最显著的特点。以模型参数(能够一定程度上代表算力和GPU显存需求量)为例,在过去的十年间,迅速从AlexNet的不足0.07B参数,历经BERT以及GPT模型的演进,达到当前的GPT4模型参数达到了1.8T的规模,增长了数千倍,但算力和显存容量的增长远低于这个速率。

从性能角度,另一个特点是在线服务的实时性和高吞吐需求。对于在线服务器,大部分AI应用是为人服务的产品,以语言类模型为例,为了达到流畅的用户交互体验,响应延迟是重要的体感指标,具体到技术指标为TTFT(Time To First Token);对于系统的服务吞吐能力,体现了并发的能力,也是重要的衡量标准,具体到技术指标TPOT(Time Per Output Token)。

为了达到实时性和高吞吐,能不能设计一颗巨大的芯片,拥有极高的算力和显存容量,从而把全部计算过程都在单芯片搞定呢?早些年模型较小时确实可以做这样,但是对于大模型,答案是否定的。单颗芯片的能力边界受到工艺的制约很大,不能无限制的增加。同时当芯片面积过大时,良率也会显著下降,即使有了Chiplet技术,依然在散热、封装等多个维度有显著的制约。因此,在数据中心侧无论是推理还是训练,仅靠一颗芯片扛起应用发展的时代已经终结,这个重要的任务就落到系统设计上,通过软件算法将计算任务在各个维度进行并行化切分,然后在多个GPU芯片进行并行计算。那么具备芯片间的超大带宽互连尤为重要,是多个GPU芯片能高效协同工作的重要前提,当前AI Infrastructure的一个趋势和热点就是,通过Scale Up互连系统,支持低延迟、高吞吐的推理和训练。

Scale Up互连是什么

在聊到Scale Up互连系统的需求和发展之前,我们来看看数据中心的AI集群互连架构是什么样的,如何让众多的GPU芯片能够一起完成工作任务。当前围绕着GPU存在三大互连,分别是业务网络互连、Scale Out网络互连、Scale Up网络互连,他们承载了不同的业务流量。

业务网络互连:承载的是诸如需要计算的输入数据,输出结果,以及在各类存储系统中的模型参数、checkpoint等。需要进行极大范围的互连,并且和云上的存储、业务接口等互通,采用以太网技术,通常支持各类RDMA。

Scale Out网络互连:训练的DP、PP并行计算切分流程,通常要把集群横向扩展到超多的GPU机柜,当前的训练规模已经发展到10w卡,目前国际的标准趋势是,采用专门优化的以太网技术UEC(Ultra Ethernet Consortium)协议。

Scale Up网络互连:以推理的大显存并行计算流量和训练的张量并行(TP)以及专家并行(MoE)流量为主,有在网计算的需求(可以对All reduce在Switch节点上进行加速)。在一定规模内互连,由于其对于性能的超高要求,采用专门设计的协议,比如NVIDIA的NVlink及NVSwitch技术,另外一个近期成立的协议联盟是UALink(Ultra Accelerator Link),由AMD、 Broadcom、Cisco、Google、HPE、Intel、Meta和Microsoft共同发起,目前在行业内得到了广泛的响应。

Scale Up对于AI为什么如此重要?

从系统视角、场景视角和芯片视角三个维度来,Scale Up对于下一代的AI集群架构来说有着显著的价值。

系统视角:当系统庞大到一定程度的时候,需要利用架构上的分层技术再结合软件的调优,以实现最合理的方案,互连的分层也不例外。可以想象,将所有的流量集中到Scale Out互连将会是极度复杂且不合理的系统方案,以训练场景为例,当训练规模达到10w卡以上,每张卡直接都通过TB/s的带宽达到全互连是灾难性的。这意味着强劲的Scale Up结合Scale Out进行GPU集群扩展是最合理的选择。

场景视角:AI应用有着显著的特点,GPU是超多核的编程模型,和擅长通用性的CPU不同,需要使用到大量的内存语义(load/store)访问,同时由于各个GPU之间需要彼此使用HBM内存,对跨芯片访问带宽和时延有显著的高要求。

芯片视角:Scale Up相对于Scale Out和业务网络对于带宽的需要高一个数量级(10倍以上),同时需要更低延迟,这就意味着需要采用GPU芯片直出互连的设计,且协议设计足够轻量化,这样才能将宝贵的芯片面积节省给GPU的计算资源、更高的IO集成能力、更低的功耗。

一句话总结起来,Scale Up互连的特点是:极致的资源实现极致的性能。

针对此场景,NVIDIA在P100这一代定义了NVlink技术,可以实现GPU两两直连组网的模式,并在后续发展出NVSwtich基于交换芯片的互连方案,NVIDIA在GTC24发布的NVL72方案,可以在单个机柜内通过NVSwitch提供72颗GPU芯片1.8TB/s带宽的超高性能Scale Up局部互连。

从数据面互通角度,以UALink为代表的Scale Up协议和UEC为代表的Scale Out协议同时也在支持AI集群互连基础协议的演进。然而对于整个互连系统来说,除了底层的互连协议,还有在网计算、管控运维等多维度的需求,行业内亟需一个原生支持AI场景的Scale Up开放生态系统。

ALS:原生支持AI场景的Scale Up

开放生态系统

为了解决这个痛点,阿里云倡议并牵头成立了ALS(ALink System,加速器互连系统)开放生态系统,解决Scale Up互连系统的行业发展规范问题。ALS提供具备性能竞争力和统一标准的互连系统,包括ALS-D数据面和ALS-M管控面两个主要组成部分,为AI训练和推理场景提供丰富的能力和特性支持。

ALS-D将支持UALink国际标准,形成极具性能竞争力的数据面方案。当前以推理和训练场景为主的AI应用,在Scale Up网络上具有并行切分算法、大显存共享、GPU超多核内存语义编程等多种显著特点。ALS-D原生支持高性能内存语义访问、显存共享和在网计算加速,并支持Switch组网模式,性能上具备超高带宽、超低时延能力。

特性维度,对于AI场景的GPU架构特点有原生支持(如内存语义,在网计算等),能够最大程度匹配GPU超众核架构的互连需求以及编程模式。

性能维度,在协议格式、重传方案等工程设计上充分性能优化,以极低的延迟进行报文解析、转发,实现端到端低时延。通过极致优化协议,在实现层面可以节省大量芯片面积,以最小成本实现极致性能。

组网维度,考虑到并行计算的发展,在新的并行模式(如EP)下需要更强大的点对点通信能力,ALS-D系统定义了基于Switch硬件连接方案,并且支持单层和多层互连拓扑,可以在各级连接方案中维持1:1的带宽收敛比,为AI计算的通信操作提供灵活的规模支撑。

此外,ALS-D考虑到未来数年的发展趋势,在组网规模上可以提供多至数百/数千节点的互连方案,并基于上述技术特性,实现具备PB级的显存共享、超低互访时延、单柜(数十GPU节点)高达数百TB/s的总吞吐带宽的Scale Up系统,充分支持LLM大模型的未来发展诉求。

互连的管控运维也是系统设计的重要组成部分,ALS-M的目标是为不同的芯片方案提供标准化接入方案,符合此规范的设备均可灵活的接入应用方系统。无论是对开放生态(如UALink系统)还是厂商特有(如NVSwitch系统),ALS使用统一的软件接口。同时,ALS-M为云计算等集群管理场景,提供单租、多租等灵活和弹性的配置能力。

开放的scale up生态才是

AI算力基础的未来?

诚然,头部AI算力厂商封闭的scale up互连技术生态在当下是高性能和高可用性的代表,但开放标准及其所构建的生态系统在Scale Up互连领域中具有不可估量的长远价值。开放标准不仅可以促进技术创新,还为不同厂商之间建立了桥梁,使得跨平台、跨领域的合作成为可能。这对于构建高度集成、高性能的AI算力集群系统尤为重要。特别是众多AI芯片、AI互连、整机厂商和集群用户纷纷投身scale up这个技术领域,只有通过开放的生态系统,才能发挥好这个生态链上各个厂家的专业能力,建设好scale up这个技术领域。

阿里云超高速互连负责人孔阳博士认为,在开放的Scale UP技术生态下,行业可以按照共同的路径演进,并且在关键技术上形成合力、减少重复投入,推动重点技术快速迭代,为整个基础设施的性能、稳定性、成本、兼容性将提供坚实的基础。

此外,在此次开放计算峰会的采访中,阿里云基础设施服务器研发产业合作资深总监吴灵熙也提到,开放合作组织使得整个行业的所有参与者都能从中获益,所以阿里云非常积极地投身进来。在文化上,阿里云希望共建一个更加公平、开放和共享的社区文化;在业务协同上,开放组织成员清晰的业务边界感也是开放组织得以持续壮大的关键。吴灵熙指出:“开放并不意味着对产业全方位的介入,专业的公司干专业的事情,各司其职,合理竞争,恰当的业务界定能够减少重复工作,促进生态组织的良性发展。”这种边界感不仅体现在技术规范制定中,也贯穿于组织间的合作与交流。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部