英伟达吹爆的DPU到底是啥?真能做到与CPU、GPU比肩?【附下载】| 芯东西内参

英伟达吹爆的DPU到底是啥?真能做到与CPU、GPU比肩?【附下载】| 芯东西内参
2022年08月31日 18:01 芯东西

数据中心崛起的新物种,凭什么成为第三颗主力芯片?

编辑 |  芯东西内参

2020 年,NVIDIA(英伟达) 在 GTC 战略发布中将 DPU 定义为“第三颗主力芯片”,行业自此进入蓬勃发展期。作为主力芯片新物种,DPU 市场空间正快速扩张,预计至 2025 年,全球、国内市场有望分别达到 245.3 亿美元、565.9 亿元,复合增速分别为 51.73%、170.60%。

当前,DPU 正快速进入数据中心/云计算、智能驾驶、数据通信、网络安全、信创、国防军工等领域。特别是在数据中心/云计算应用场景,需求较为迫切。

来源 兴业证券

原标题:

DPU:第三颗主力芯片,崛起的新物种

作者:吴鸣远 蒋佳霖 桂杨

01.

大数据时代

DPU成为第三颗主力芯片

大数据催生多元算力新计算架构,DPU 逢时而生随着数字经济不断发展,全球新一轮科技革命正加速演进。

政策层面,我国正自上而下推进数字化转型,“新基建”、“东数西算”、“双碳减排”等规划陆续推出;技术层面,云计算、智能驾驶、元宇宙等产业不断发展,下游应用场景多样化带来数据激增,不断催生多元算力需求,DPU 逢时而生。

DPU(数据处理器,Data Processing Unit),是数据中心第三颗主力芯片。2016 年,DPU 首次由美国公司 Fungible 提出,其主要目标是优化和提升数据中心效能。根据 IDC 统计,全球算力需求平均每 3.5 个月翻一倍,而作为支撑算力的基础,传统以 CPU 为中心的“CPU+xPU”多元化异构计算架构在性能提升上越发乏力。

从 CPU 性能与网络带宽的过往发展趋势来看:网络带宽 CAGR 从 2010 年前的 30%,提升至当前的 45%;与之相对应的 CPU 性能 CAGR 从 2010 年前的 23%,下降至当前的 3.5%;RBP 指标从 1 附近,上升到 10 以上,CPU 应对网络带宽增长带来的计算需求压力不断增大。

因此,具备网络能力,并同时融入通用计算能力,可进行安全与存储卸载功能的下一代智能网卡 DPU 逢时而生,成为继 CPU、GPU 之后的第三颗主力芯片,助力数据中心更高效的应对多元化的算力需求。

▲带宽性能增速比(RBP)失调

从 DPU 的产业发展历程来看,NVIDIA 是全球先行者。2020 年上半年,NVIDIA 以69 亿美元的对价收购以色列网络芯片公司 Mellanox Technologies,并于同年推出 BlueField-2 DPU,将其定义为继 CPU 和 GPU 之后“第三颗主力芯片”,正式拉开 DPU 大发展的序幕。

▲NVIDIA BlueField-2 DPU 产品情况

非单一芯片,DPU 是智能网卡进化的下一形态。DPU 是由基础网卡进化而来,是 智能网卡发展的下一形态。其进化史可分为三个主要阶段:

阶段一:普通网卡,提供网络吞吐能力。普通网卡(基础功能网卡)提供 2x10G 或 2x25G 带宽吞吐能力,具有较少硬件卸载能力,主要是 Checksum、LRO/LSO 等,支持 SR-IOV,以及有限多队列能力。在云平台虚拟化网络中,普通网卡向虚拟机(VM)提供的网络接入方式主要有三种:1)由操作系统内核驱动接管网卡并向虚拟机(VM)分发网络流量;2)由OVS-DPDK 接管网卡并向虚拟机(VM)分发网络流量;3)高性能场景下通过 SR-IOV 的方式向虚拟机(VM)提供网络接入能力。

阶段二:硬件卸载,协助 CPU 进行网络负载。随着云计算不断发展,普通网卡已经不能满足数据中心对虚拟化的要求,因此,第一代具备硬件加速能力的智能网卡 SmartNIC 演进而来。SmartNIC 核心是通过FPGA(现场可编程门阵列)协助 CPU 处理网络负载,并编程网络接口功能。此阶段的智能网卡延续了 TOE 卸载 CPU 负载逻辑,使用“网卡+FPGA”方法扩展网卡算力,实现用户自定义计算,以及硬件卸载能力。

SmartNIC 硬件卸载能力中,典型有 OVS Fastpath 硬件卸载、基于 RoCEv1 和RoCEv2 的 RDMA 网络硬件卸载、融合网络中无损网络能力(PFC、ECN、ETS 等)硬件卸载、存储领域 NVMe-oF 硬件卸载,以及安全传输数据面卸载等。

在云计算虚拟化平台中,SmartNIC 能够提升应用程序和虚拟化性能,实现软件定义网络(SDN)和网络功能虚拟化(NFV)多种优势,将网络虚拟化、负载均衡和其他低级功能从数据中心 CPU 中卸载,为应用提供最大处理能力。此 SmartNIC 还能够提供分布式计算资源,使用户开发软件或提供接入服务,进而加速特定应用程序。

在产业案例上:2013 年,Amazon 的云计算平台 AWS 即研发了 Nitro 产品,将数据中心部分开销,即为虚机提供远程资源、加密解密、安全策略等服务程序,全部放到专用加速器上执行。Nitro 架构采用轻量化 Hypervisor 配合定制化硬件,将虚拟机计算(CPU 和内存)和 I/O(网络和存储)子系统分离开来,通过 PCI总线连接,节省 30% CPU 资源。

阶段三:智能进化,融入通用算力芯片。在数字经济加速渗透的背景下,数据中心越来越成为“业务和流量复杂性的聚集地”,为数据中心减负成为催化智能网卡再度进化的主要因素。新一代产品继承 并发展了SmartNIC,通过在其基础上加入 CPU,提供更丰富和灵活的算力卸载、 主机侧与网络侧通信传输功能、虚拟网络控制面隔离、测量和检测等功能,来实 现网络、存储与安全卸载等能力。

当前,DPU 的特点首先是支持 PCIe Root Complex 模式和 Endpoint 模式,在配置为 PCIe Root Complex 模式时,实现 NVMe 存储控制器与 NVMe SSD 磁盘一起构建存储服务器。

DPU 具有独立计算单元,可通过 ASIC/FPGA/SoC 等技术实现。具备独立计算单元是 DPU 相较于普通网卡的主要特征。DPU 能够完成特定基础设施功能操作,如重组加速、安全加速等,带来显著性能提升。

DPU 上的可编程 ASIC 或 FPGA 单元有可以运行自定义软件的计算层,可为网络流量提供服务,并执行特定网络及数据中心基础设施功能,为外部网络和服务器操作系统之间提供了额外安全层,即将安全保障由 ToR 交换机转移向了 DPU 设备目前,智能网卡(DPU)有 ASIC、FPGA 和 SoC 三种实现路径。

▲智能网卡不同技术实现示意图

不同技术路径在成本、编程简易性和灵活性方面存在各自利弊。

其中,ASIC 具备高性能、低功耗、低成本等特性,但其在预定义范围内可编程性较低,灵活性一般,限制了其向新应用场景开拓的能力;基于 FPGA 的技术路线具有非常高的灵活性和可编程性,在足够时间和成本预算支持下可以相对有效地支持几乎所有功能,但其价格昂贵、功耗较高、芯片面积较大;对于更复杂、更广泛的现实用例,基于 SoC(如 NVIDIA BlueField DPU)的技术路线提供了更优实施选项,SoC 技术路线具备可编程、高灵活性等特征,是未来 DPU 发展的一个主流方向。

▲DPU 不同技术路线参数对比

NVIDIA BlueField-2 DPU 是 SoC 路线的典型代表。该 DPU 继承了 Mellanox 第一代智能网卡,即网络、存储应用 SoC 可编程芯片,集成了一个基于行业标准、高性能及软件可编程多核 ARM 架构通用 CPU、一个速率高达 200 Gb/s 单端口(或100G/s 双端口)无线带宽或以太网接口,以及灵活、可编程专用硬件加速引擎。

02.

全球标杆

NVDIA引燃DPU市场

NVIDIA 通过收购 Mellanox 积极布局智能网卡业务,并在 2020 年 GTC 秋季大会上宣布推出一款新型数据处理器,即BlueField-2 DPU,目前已上市。该处理器由新型 DOCA 架构,即一种全新数据中心 IOC 架构(Infrastructure On a Chip,基础架构级芯片)提供支持,可从CPU 上卸载关键网络、存储和安全任务,突破性的提升相关性能。

在该大会主题演讲中,NVIDIA 创始人兼首席执行官黄仁勋表示:“数据中心已成为新型计算单元。在现代化、安全加速数据中心中,DPU 已成为其重要组成部分。CPU、GPU和 DPU 结合,可构成完全可编程单一 AI 计算单元,提供前所未有的安全性和算力”。此后,NVIDIA 在 GTC 2021 上宣布将升级为集 CPU、GPU 和 DPU 三芯产品为一体厂商,“三类芯片、逐年飞跃、一个架构”。

▲NVIDIA DPU 产品规划路线图

BlueField-3 DPU 预计将实现 10 倍加速计算能力提升。NVIDIA BlueField-3 预 计将于 2022 年出样片,是首款以线速处理软件定义网络、存储和网络安全的 400Gb/s DPU,具备 x86 300 个核网络处理能力,将强大计算能力、高速网络和 广泛可编程性相结合,为要求苛刻的工作负载提供软件定义的硬件加速解决方案。

BlueField-3 网络部分采用了 ConnectX-7 网络芯片,支持 400G 以太网和 NDR InfiniBand,因此具有出色网络性能。相比上一代产品,它具有 10 倍加速计算能力、16 个 ARM A78 CPU 核,和 4 倍加密速度,BlueField-3 也将是首款支持 第五代 PCIe 总线,并提供数据中心时间同步加速的 DPU。

凭借 BlueField-3 DPU 提供的强大数据处理能力,NVIDIA 将网络安全业务应用从数据中心 CPU 基础设施服务中卸载和隔离出来,构建基于“零信任”环境,可对数据中心每个用户进行身份认证,实现实时网络可视化、网络威胁的检测与响应、以及监控、遥测和代理服务,保障了企业从云到核心数据中心,再到边缘安全性,同时在效率和性能上有了更大提升。

▲BlueField-3 DPU 总体架构

NVIDIA DOCA为开发者提供一个完整、开放软件平台。DOCA 是与 BlueField-3 DPU 配套的软件开发包,利用 DOCA,开发者可以在软件定义和硬件加速网络、 存储、安全和管理等进行应用开发。

DOCA 提供 BlueField-3 创建、编译和优化 应用运行时环境,用于配置、升级和监控整个数据中心数千个 DPU 编排工具,以及各种库、API 和日益增加的各种应用,如深度数据包检测和负载均衡等。此外, DOCA 给程序员提供简单开发接口同时,可向下平滑兼容,支持每一代 DPU 产品。

▲NVIDIA DPU DOCA 架构图

BlueField-4 DPU 将深入嵌入 NVIDIA AI 计算技术,性能有望进一步飞跃提升。

从核心功能来看,DPU 主要是从 CPU 上卸载关键网络、存储、安全任务,以降低 CPU 的运算压力,推动数据中心向“3U”一体转型,从而提升整个数据中心的运 行效率,以应对日益旺盛的海量数据处理。

网络卸载:网络通信技术和时间精度进一步加强。BlueField-3 在网络业务中对 网络通信技术,如 RDMA、连接跟踪(Connection Tracking)、ASAP2等,进行 进一步加强,以及对数据中心和边缘之间时钟同步进一步精确。

其中,RDMA 可 以实现直接在内存之间交换数据,且具备卸载 CPU 算力的功能。目前 NVIDIA 全 部网卡已全面支持 GPU-Direct RDMA(GDR)技术。该技术可以进一步实现多计 算机直接互相访问 GPU 内存的功能。

▲GPU-direct RDMA 技术示意图

存 储 卸 载 :消 除 对 本 地 存 储 依 赖 , 提 升 云 计 算 远 程 存 储 效 率 和 管 理 。BlueField-3 可以实现对块存储、文件存储、对象存储或 NVMe 存储仿真,并且可以在数据落盘时对加解密操作进行硬件卸载,此外各种签名操作也都可以分流 到 DPU 上。

其弹性块存储可以达到 18M 的 IOP/s 的读写性能,其虚拟化 I/O 加 速可以达到 80Mpps 的性能。BlueField SNAP 即基于软件定义的网络加速处理, 可以实现云计算对存储解耦以及可组合性存储日益增长需求满足。

BlueField-3 实现了从 IP 层、传输层到 MAC 层 400Gb/s 在线加解密,在使用 RegEx 和 DPI 时,深度包检测速度可达 50Gb/s。

其中 IPSec 协议可以在 IP 层对数据进行加解密,IPSec 速度与网络线速相同,BlueField-3 可以实现 400Gb/s 的 IPSec 加解密。与 CPU 做 IPSec 加解密相比,其速度大大提升。TLS 协议可以在 TCP 层对数据进行安全保障,BlueField-3 对其加解密速度可达 400Gb/s,也能释放 CPU 算力。

产业生态是 IT 新技术和新产品致胜的关键因素,甚至是决定性的因素。

NVIDIA除了在软件层面提供软件开发工具包 DOCA(Data-Center-Infrastructure-On-A-Chip Architecture),帮助开发人员在 DPU 加速数据中心基础设施上构建相对应用程序之外,与其他科技巨头不断深化合作,共享 DPU 市场红利。

在 2020 GTC 大会上,VMware 和 NVIDIA 宣布进行广泛合作,共同提供 AI-Ready Enterprise Platform,以及适用于数据中心、云和边缘计算的新架构,该架构使用 BlueField DPU 来支持现有和新一代应用程序。

AI-Ready Enterprise Platform 的关键组件是 NVIDIA AI Enterprise软件套件,它在 VMware vSphere 上运行,并由 NVIDIA 优化、认证和支持,可帮助全球大型行业的数千位 VMware 客户使用 AI 的强大功能。

NVIDIA BlueField-2 DPU 提供一套丰富网络流量卸载引擎,可满足 5G 和云等高要求市场中不断发展的安全需求。Palo Alto Networks 发挥其在保护企业和移动网络方面的专长,并将其应用于 5G。

两家公司部署了包括虚拟防火墙在内的5G 原生安全倡议。该虚拟防火墙致力于满足 5G 云原生环境严格安全需求,通过规模化、操作简易性和自动化,为客户提供安全保护。

除此外, 其他重要合作还包括:Red Hat 在其开放混合云产品组合 RHEL 和OpenShift 中为 DPU 提供支持;Canonical 在 Ubuntu 云平台中支持 BlueField-2DPU 和 DOCA;Check Point:将 BlueField-2 DPU 集成到产品技术中,加速网络安全产品等等。

▲BlueField-2 DPU 智能流量卸载

03.

需求放量

国产DPU厂商迎良机

3U”一体(即 CPU、GPU、DPU)重塑数据中心算力架构。数据中心作为 IT 基础设施的重要组成部分,正快速发展,面向云计算商业化应用,对接入带宽、可靠性、灾备、弹性扩展等要求较高。

从未来算力需求来看,异构计算已成为重要发展趋势,高度集成化的片上数据中心的模式(Data Center InfrastructureOn a Chip)有望成为未来数据中心主流,即 CPU、GPU、DPU 共存形式。以NVIDIA 为例,其布局数据中心从核心到边缘(Edge)采用了“3U”一体的统一计算架构。通过 CPU、GPU、DPU 协同互补,可以在数据中心和边缘端达到高性能与高安全性。

CPU:计算生态的底座,主力芯片的基石。CPU(中央处理器)是整个计算设备的大脑,其诞生使得软件和硬件从此解耦可以实现更高 IPC 和更高频率。自上世纪 90 年代以来,CPU 整体性能提升接近 5 万倍。

同时,基于 CPU,软件也发展出庞大生态,无论是 x86 架构服务器端还是 ARM 架构移动端,都构建起自身丰富的生态系统。CPU 重要应用领域包括 PC 和服务器,每台 PC 通常有一颗 CPU,而每台服务器 CPU 数量不定,通常分为一路、双路、四路及以上服务器;其中,以双路服务器为主。

全球市场方面,2021 年全球服务器出货量达 1353.9 万台,同比增长 9.07%;PC出货量为 3.47 亿台,同比增长 16.27%。中国市场方面,2021 年国内服务器出货量达 375.1 万台,同比增长 9.07%;PC出货量为 5700 万台,同比增长 16.09%。

▲2015-2025E 年中国服务器(x86)出货量情况

GPU,从图形处理到数据处理芯片蜕变。图形处理器(GPU)从图形控制功能发展而来,至今已成为架构复杂度最高的芯片之一,在并行计算、浮点以及矩阵运算方面具有强大性能,是高性能计算最重要的辅助计算单元。

2006 年,NVIDIA 推出并行计算架构 CUDA(Compute Unified Device Architecture),使 GPU 可以处理复杂计算问题,同时开发者可使用 C 语言来编写程序,极大降低了用户基于GPU 并行编程门槛。在此基础上,NVIDIA 还针对不同场景构建了功能强大的开发库和中间件,逐步建立了“GPU+CUDA”的强大算力生态。

根据华经产业研究,2020 年 GPU 全球市场规模为 254.1 亿美元,预计 2027 年将达到 1853.1 亿美元;中国市场 2020 年市场规模为 47.4 亿美元,预计 2027 年达到 345.6 亿美元,GPU 市场维持 30%以上的增速。

▲2020-2027E 年中国 GPU 市场空间情况

DPU,因数据中心而生的“第三颗主力芯片”。数据中心是 DPU 目前最主要的应用场景,预计未来用于数据中心的 DPU 数量将达到和数据中心服务器同等量级。随着 DPU 技术方案更加成熟、数据中心在全球范围内加速落地,以及智能驾驶等诸多应用场景逐渐放量,NVIDIA、Intel 等厂商数据处理类芯片 DPU/IPU 大规模量产,全球 DPU 市场将在未来几年迎来爆发式增长。

2020 年,全球 DPU 市场空间为 30.5 亿美元,至 2025 年,市场空间将有望达到245.3 亿美元,5 年复合增速为 51.73%。

国内市场方面,预计 2023 年,国内数据中心将升至 800G,届时 DPU 性能将升级至 100G 及更高,DPU 将迎来第一轮配置需求。同时,智能驾驶、边缘计算、IoT 等产业的发展也将带来增量市场。2020 年,国内 DPU 市场规模为 3.9 亿元,预计 2025 年,国内市场规模将达到565.9 亿元,5 年复合增速达 170.60%。

▲2020-2025E 年中国 DPU 市场空间情况

DPU 上游涉及如 EDA 设计软件、IP 核、封装测试、代工等环节,下游则主要对应数据中心/云计算、智能驾驶、数据通信、网络安全等领域需求。从产业趋势来看,DPU 下游需求有望持续放量,国内厂商与海外龙头有望在未来同台竞技。

DPU 产业链上游:国产供应链正崛起。DPU 产业链上游主要涉及如 EDA 设计软件、IP 核、封装测试、芯片代工等。目前在上述环节均呈现出国产化供应链崛起的特点,未来有望和海外不断缩小差距。

EDA 软件:目前海外三巨头 Cadence、Synopsys 和 Mentor Graphics 合计占据国 内市场份额近 77.7% ,国产厂商在细分领域逐步突破,如在器件建模和电路仿 真、集成电路等领域。国产 EDA 的主流供应商中,概伦电子已登陆科创板,华大 九天的创业板 IPO 申请也已获得证监会同意。

IP 核:目前 ARM、Synopsys 合计占据全球 IP 核约 60%的市场份额,同时第三名 Cadence 的市场份额为 6%。随着先进工艺升级,IP 核数升级带来的收益边际递 减,中国目前已实现在接口 IP 市场的国产化。

封装测试:国内封装业已率先实现国产替代,并逐步向技术壁垒更高、产品附加 值更大的先进封装发展。在国家科技重大专项“极大规模集成电路制造装备及成 套工艺”支持下,部分企业在高端封装技术上已达到国际先进水平,如在金属凸 点技术、倒装芯片技术等领域已十分成熟。

芯片代工:2016 年,中国台湾的台积电成功研发 10nm 工艺,制程节点反超 IDM 的三星与英特尔,并在之后几年内持续进行技术迭代,是国内第一家推出 7nm 与 5nm 工艺的代工企业,稳居行业龙头;中国大陆的中芯国际则实现了 14nm 的技 术节点突破,为国内芯片生产制造提供有力保证。

▲DPU 产业链上游核心赛道

DPU 在可预见未来,将主要应用于数据中心/云计算、智能驾驶、数据通信等领域,同时网络安全、信创、国防军工等细分市场渗透率亦有望提升。

▲DPU 产业链下游多元需求

除 NVIDIA 外,英特尔公司在 2015 年收购了Altera,并于 2021 年 6 月发布 IPU 类 DPU 产品。

Marvell 从 2018 年起陆续收购了 Cavium、Avera Semiconductor 和芯片初创公司 Innovium。

Xilinx 于 2019 年4 月宣布收购 Solarflare,并于 2020 年发布 Alveo 系列加速卡产品,后又被AMD 于 2022 年 2 月收购。

Fungible 则专注于 DPU 设计,于 2019 年推出了 F1DPU 产品。

2022 年 4 月,AMD 宣布对 DPU 厂商 Pensando 收购,通过这次并购,AMD 将正式进军 DPU 领域,完成涵盖 CPU、GPU、FPGA 和 DPU 整个云端布局。

▲全球 DPU 芯片主流玩家

2021 年 11 月,腾讯在其数字生态大会上披露其自研的智能网卡芯片“玄灵”,定位于云主机性能加速,结合CVM/BM/容器等场景,将原来运行在主 CPU 上的虚拟化、网络/存储 IO 等功能下移到芯片,实现主 CPU 零占用。

2022 年 6 月,阿里云基于神龙架构推出了全新云计算基础设施体系 CIPU,取代 CPU 成为新一代云计算体系架构核心,CIPU 向下云化管理数据中心硬件,加速计算、存储和网络资源;向上接入飞天云操作系统,将全球上百万台服务器变成一台超级计算机,目前 CIPU 已在阿里云内部有较大规模应用,为双 11、阿里集团业务等内部客户和最新实例提供支撑。

除此之外,国内 DPU 新兴产业亦蓄势待发。如北中网芯、芯启源、云豹智能、星云智联、大禹智芯、中科驭数等纷纷入局。

芯启源推出智能网卡 SmartNIC,2021 年 11 月完成数亿元 Pre-A4 轮融资;云豹智能专注云原生 DPU SoC 芯片,投资方包括红杉、腾讯等;星云智联专注数据中心基础互联通信架构,2021 年 4月成立以来获得三轮数亿融资;大禹智芯智能网卡 Paratus 1.0 进入生产阶段,2021 年 7 月完成数千万元 Pre-A 轮融资;中科驭数自主研发 KPU 架构,2021 年7 月完成数亿元 A 轮融资。

北中网芯(左江科技控股 66.86%)成立于 2020 年,并于 2022 年完成第二轮战略融资,引入润兴锐华、三汇智芯等市场资本,主要研制目标为可编程网络安全芯片,以应对当前快速扩大的数据中心 DPU 市场需求,预计 2022 年下半年流片返回,发力国内 DPU 市场。

▲国内 DPU 新兴厂商情况

芯东西认为,未来,DPU绝对不会像通用计算CPU那么聚集,也绝对比GPU市场更加多元化,从构成上来看,就分为基于ASIC的和基于FPGA的两大类,ASIC和FPGA两者已经共存多年,可见的未来两者必将长期存在。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部