火山引擎:重磅发布

火山引擎:重磅发布
2023年04月18日 22:42 云头条

2023年4月18日,火山引擎在其举办的“原动力大会”上发布自研DPU等系列云产品,并推出新版机器学习平台:支持万卡级大模型训练、微秒级延迟网络,让大模型训练更稳更快。

火山引擎总裁谭待在演讲中表示,字节的规模化优势能让火山引擎做到很好的性价比:

一是资源复用:字节国内业务有上亿核CPU资源池、数十EB的企业存储。以此为基础,火山引擎通过充分和抖音等业务进行并池、流转和调度,分钟级可调度十万级核CPU,小时级调度数百卡GPU,实现更极致的弹性和性价比。

二是全面云原生化:字节内部计算体系已经实现超过95%的容器化,并且基于云原生实现了超大规模存储池化。这些技术能帮助客户通过云原生进一步用好云的弹性,并且通过业务混布提升资源利用率。

三是坚持全栈自研:包括自研服务器,自研OS,自研虚拟网络,自研mGPU技术等,将部署密度提升超过500%,为上层应用带来更高资源利用率。

早在2021年12月发布IaaS产品时,字节跳动副总裁杨震原透露火山引擎在自研DPU。

今天的原动力大会上,火山引擎第二代自研DPU隆重亮相:从硬件到软件全栈自主研发,并实现了新一代RDMA网络,以及软硬一体的Hypervisor层,整体网络性能升级到5000万pps转发能力、20us延迟,达到业界领先水平。目前,字节内部已经实现上万台最新DPU的部署,并将持续提升渗透率。

谭待说:“云计算本质,是资源池化和软件定义,但随着云基础设施规模越来越大,计算、存储、网络的虚拟化损耗占据10-20%的额外开销。想提供更便宜的云服务,必须解决好这部分额外开销,把CPU和GPU释放到更关键的业务负载里。这就是火山引擎要做DPU的原因。”

火山引擎基于自研DPU的计算实例发布:

一、火山引擎DPU+Intel全新一代SPR CPU平台的计算实例:基于火山引擎和Intel合作深度定制了第四代至强可扩展处理器(代号Sapphire Rapids)的三代通用服务器g3i,整机计算性能最高提升93%,单核性能最高提升13%,相比上一代g2i实例提供更高的算力支持。最大网络带宽96Gbps,较上一代实例提升20%,3600万PPS网络转发能力相比上代提升200%以上,轻松应对网络密集应用场景。存储IOPS性能相比上一代实例提升1倍。同时中小规格实例具备网络、存储带宽突发能力,性能最高提升6倍。

二、火山引擎DPU+AMD全新一代Genoa CPU平台的计算实例:整机性能最高提升138%,单核性能最高提升39%。小规格实例性能最高提升10倍以上。IO能力方面完全继承DPU2.0的所有能力,为客户提供另一个高性价比的通用计算选项。

三、火山引擎DPU+Nvidia A800 裸金属实例:更加适用大模型等大规模集群分布式训练场景。整机配备800G基于自研拥塞控制算法的高速RDMA网络,并且基于自研的拥塞控制算法,在极致性能的场景下裸金属实例相比虚拟机性能提升30%, 相比上一代训练实例集群最多有3倍以上的性能提升。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部