国产DPU应用落地进展如何?中科驭数晒出五大方案

国产DPU应用落地进展如何?中科驭数晒出五大方案
2024年04月20日 14:50 芯东西
芯东西(公众号:aichip001)

作者 |  ZeR0

编辑 |  漠影

随着数据浪潮持续爆发,数据处理器(DPU)被视作继CPU、GPU后的数据中心第三大主力芯片,负责围绕数据处理优化计算、网络、存储、安全、管控等基础设施虚拟化能力。

2023年10月,工信部等六部门联合印发《算力基础设施高质量发展行动计划》,提出到2025年,算力规模超过300EFLOPS,并将DPU设为重要任务之一。

英伟达、英特尔等国际芯片大厂均对这一芯片赛道积极布局,国内同样冲出中科驭数等几家代表性的DPU芯片创企。3月29日,中科驭数举办以“DPU构建高性能运算力底座”为主题的线上技术开放日,期间集中展示了其在低时延网络、云原生网络、智算中心网络三大关键场景下的技术成果与五大核心DPU解决方案。

中科驭数基于自研KPU芯片架构率先在国内进行了三代DPU芯片研发,从芯片底层架构到网络、存储、计算等上层应用系统均已形成核心技术积累。其自研DPU芯片及系列产品可广泛应用于超低延迟网络、云和数据中心、金融计算、大数据处理、5G边缘计算、高性能计算等场景。

中科驭数创始人、CEO鄢贵海进行开场致辞,谈到DPU是解决数据中心计算效率低、资源利用率低、安全性低“三低”问题的关键技术。会前,中科驭数高级副总裁张宇与芯东西等媒体进行深入交流,分享DPU产业发展的现况与最新趋势。

在4月19日举行的2024中国生成式AI大会上中国智算中心创新论坛上,中科驭数产品运营部副总经理曹辉分享说,中科驭数旨在通过DPU将计算加速、存储加速、网络加速、安全加速及云原生加速等基础设施层深度整合,构建高性能、高集成的AI服务基础架构。

一、大模型时代,“3U一体”组合如何降本增效?

如果将数据中心中的每台服务器比作一座城市,随着人口不断膨胀,交互需求爆炸式增长,城市需要从“乡间公路”向“高速铁路”升级。

DPU便是帮助实现这一升级的关键组件。相比传统网卡,DPU的高吞吐、低时延、基础设施卸载能力能够帮助数据中心规避“信息孤岛”问题,与CPU、GPU共同支持大规模新型数据中心的计算、网络、存储、安全、管控等数据处理需求。

中科驭数高级副总裁张宇谈道,DPU有助于全面提升云计算性能、改善用户体验、降低成本、增加安全性,基于DPU打造云计算底座技术已成熟并在多行业广泛落地;随着低延迟网络场景需求爆发,DPU成为低延迟算力的关键。随着大模型爆炸式发展,他认为CPU+GPU+DPU“3U一体”算力组合将发挥作用,包括:

在计算方面,节约超过20%的CPU开销,大幅降低“数据中心税”。

在安全方面,提供高性能硬件安全防护和加解密处理能力,支持虚拟化/容器深度安全防护。

在存储方面,提升存储IOPS,支持多存储协议,支持弹性裸金属服务无盘启动。

在管控方面,支持对物理主机、虚机、容器资源的统一管理,多层次可观测能力。

在网络方面,硬件级流表转发,大幅提升网络带宽和PPS处理能力,提供高性能虚拟化网络,可实现虚拟网络转发能力10倍提升。

通用智算架构需要强大算力基础设施支撑,在张宇看来,通用智算中心解决方案需要依靠DPU来疏导海量数据交互。DPU在智算中心中的关键作用包括支持超大规模组网算力互连、支持100G+超高带宽、RDMA提供模型训练所需超低时延和抖动、NVMe-oF提供更高效存储读取与处理。

二、预计每年DPU需求量将达百万片

根据2023年《中国数据中心产业发展白皮书》,预计至2025年“十四五”规划期末,拟实现数据中心机架规模增长至1400万架,规模总量翻两倍,总增量投资约7000亿元。按服务器规模预计,未来几年云与数据中心领域每年国内服务器出货量将维持在500万台左右,其中DPU渗透率在10%左右,单台服务器可配置一到多块DPU板卡,预计每年DPU需求量将在100万片左右。

张宇说,中科驭数是国内研发实力最强、规模最大、唯一大规模商业落地的DPU厂商,研发人员占比超过80%,已构筑完备的知识产权布局,申请发明专利550项,授权发明专利125项,注册软件著作权242项,发表于国内外权威期刊的高质量论文27篇。

DPU的研发基于软硬协同的自主研发技术。

在芯片设计方面,中科驭数提出了软件定义加速器技术路线,自主开发敏捷异构KPU创新架构,以解决DPU芯片设计碎片化的问题,具有软件定义可配置、低设计成本、计算高效的优势。

在芯片软件生态方面,中科驭数自研的DPU软件开发平台HADOS,可兼容多种操作系统,大幅降低应用软件开发难度。

基于DPU软件开发平台HADOS,中科驭数已与国内6大CPU芯片、12家主流操作系统、9家主流数据库厂商、8家头部云/云原生厂商、17家TOP级服务器厂商完成兼容性适配,并参与10大开源社区平台,共同推动技术发展。

三、三大关键场景、五大解决方案,构建高性能算力底座

中科驭数基于DPU打造超低时延网络、云原生网络、智算网络三大方案,搭建了完善的应用生态,客户可覆盖云服务厂商、数据中心、运营商、证券基金、银行等数字经济领域企业。

在3月29日举办的“DPU构建高性能运算力底座”主题线上技术开放日上,中科驭数集中展示了五大核心DPU解决方案。

云计算技术对异构需求越来越高,传统架构存在着处理能力与数据量增长不匹配、资源利用不足、安全风险等问题。对此,中科驭数高性能云计算底座解决方案带来物理隔离、业务卸载、硬件加速、业务快速迭代等诸多优势,通过将工作节点的存储、网络、管理等基础设施组件完全卸载到DPU硬件,释放Worker节点的CPU算力资源给到业务系统,帮助集群算效比大幅提升。

中科驭数高性能云计算底座解决方案也提供了一个DPU统一管理的平台,既能通过该平台来调度DPU上的各种业务,也能使得客户在庞杂的云管系统中引入一个新的DPU组件时,实现整个DPU系统状态和现有云管平台的无缝集成。

针对云原生业务面临的服务网格sidecar模式面临资源开销和时延两大服务治理挑战,中科驭数基于DPU的服务网络加速技术可高效应对,将服务网格的sidecar容器集中卸载到DPU卡上执行,显著降低服务器CPU的算力消耗;通过对容器网络CNI进行硬件卸载,高性能转发引擎实现了网络转发功能的加速,能有效降低业务时延。

目前基于DPU的服务网格方案已成功应用于国内某知名证券机构。引入中科驭数方案后,在七层服务治理下,其时延降至100-130us;在四层流量下仅需40us。通过插上DPU卡并配置网络即可实现简便的流量控制,实现即插即用的效果。

面向网络安全,传统CPU软加密、国密卡硬件加密两种技术架构存在性能瓶颈且不适用于国产和信创服务器平台。中科驭数基于DPU的高性能国产密码卸载安全方案,自研了高性能加解密算力引擎,实现国产密码全卸载,为每台服务器提供分布式贴身隔离防护,可降低主机CPU利用率至90%以上,确保业务零丢包,提高安全性能,减少客户工作量。

面向超算、智算场景,为了以更少的计算资源提供更强的网络传输能力,中科驭数用支持RDMA协议的DPU卡代替传统网卡,提出RDMA加速并行文件系统解决方案,基于RDMA协议零拷贝、内核旁路的特性,大幅降低并行文件系统在数据读写,数据传输的时延,提高带宽利用率,进而提升并行文件系统整体性能;同时利用DPU卡上的VirtIO-FS技术,将业务侧host的虚拟化功能卸载至DPU,减少host端CPU的算力损耗。最终实现降低时延、提升带宽、并释放CPU算力。

面向金融证券期货交易场景,中科驭数推出了信创低时延网络解决方案,基于自主研发并量产的低时延网络DPU卡KPU SWIFT-2200N和超低时延数据处理开发平台NDPP,搭配6大国产CPU构建低时延服务器,在系统层兼容各类国产操作系统,在应用层广泛适配多家业内金融软件厂商的交易系统,从而支撑核心交易业务从底层硬件到上层软件,向全信创平台迁移,同时还能获取媲美非信创的时延性能。

结语:算力正成为新质生产力的核心与产业变革的关键

随着AI日益普及,各行各业对基础设施的需求将更加多元化。相比CPU和GPU,DPU的市场和生态体量相对较小,需要相关企业合作来推动技术走向成熟、打造更多标杆商业案例,以持续壮大生态。

据张宇透露,中科驭数正全面拥抱国产化生态,并致力于与国际水平接轨,在时延、带宽、算力成本上均寻求超越。

如今算力正成为新质生产力的核心与产业变革的关键。作为新型算力基础设施的新兴主力芯片,DPU能够分担激增的数据处理需求,为新一代数据中心提供更强计算底座,在各行各业数据中心的应用也将更加深入。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部