AI大模型对基础设施的重构,比想象中来得更为迅猛。计算、存储、网络等核心单元都在剧烈蜕变,而智算中心作为集大成者必然加速进化。
面对AI需求的大爆发,超大规模、超强算力、超低能耗无疑是下一代智算中心的主要演进方向。然而,提升算力与降低能耗往往存在矛盾,在特定场景甚至成为“不可能同时完成的任务”——如何实现算效与能效齐飞,堪称下一代智算中心的最大挑战。
从某种意义上讲,改善算力效率的路径颇为丰富,亦更容易达成业界共识。无论是押注GPU的“大力出奇迹”,还是探索系统创新的多元方法,都为智算中心的开疆扩土创造了必要条件,并推动整个AI产业快速发展。
根据国家信息中心发布的报告,“十四五”期间,在智算中心达成80%应用水平的情况下,各地对智算中心的投资可带动人工智能核心产业增长2.9倍至3.4倍,促进相关产业增长36倍至42倍。
与算力的高歌猛进相比,解决能耗难题却殊为不易。单纯以技术指标的角度看,全面采用液冷系统似乎是智算中心节能减碳的不二之选,但现实状况更加复杂,既有设备投资的维护、业务快速上线的要求等因素会显著影响决策效果,因地制宜寻找对策才是正途。
在近日举办的“元脑中国行”全国巡展成都站上,并济科技、能投天府云与浪潮信息联合宣布,由三方共建的天府智算西南算力中心正式投运,将成为成渝枢纽的重要算力节点,支撑成都打造千亿级人工智能核心产业。尤值一提的是,天府智算西南算力中心采用领先的元脑智算架构和高密智算风冷算力仓,实现算效、能效双跃迁,千亿参数大模型训练的算力效率提升至80%,比传统风冷数据中心节能提高25%以上。
显而易见,“高密风冷+系统创新”不仅为下一代智算中心提供了崭新的演进方向,而且对智算中心的有效落地创建出可复制的实践路径。
负重前行的智算中心面临多元挑战
相关统计显示,目前国内智算中心主要集中于东部和中部地区,二者的智算中心数量占比分别为62.5%、17.5%,而西部地区的这一比例仅为12.5%。
伴随各地人工智能产业渐入佳境,西部地区的大型智算中心建设逐步进入快车道。天府智算西南算力中心作为成渝枢纽的重要组成部分,以大规模高质量算力基础设施支撑智慧蓉城场景应用、驱动城市能级提升可谓责无旁贷。
据了解,2023年成都人工智能企业数量近900家,产业规模达780亿元,产业竞争力稳居中西部第一。同时,成都获批国家新一代人工智能创新发展试验区和创新应用先导区,形成基础层、技术层、应用层全产业链覆盖的发展格局。
不难看出,与一些地区的智算中心处于“等米下锅”的状态不同,成都良好的产业氛围有利于智算中心加速扩张。根据最新出台的《成都市人工智能产业高质量发展三年行动计划(2024—2026年)》,成都将通过算力中心运营模式升级、智算中心扩容等方式,力争到2026年人工智能核心产业规模达到1700亿元,带动相关产业规模约1万亿元。
正是在这样的背景下,建设天府智算西南算力中心的必要性与紧迫性尤为凸显,如何克服智算中心演进过程中可能面临的诸多障碍,就成为头等大事。
首先,AI功耗及功率密度持续攀升,机房部署和散热问题突出。天府智算西南算力中心原规划单柜6kW,1台AI服务器要占用两个机柜的电力和散热资源,存在严重浪费的隐患。因此,建设高算效的智算中心需要实现高密部署,同时要解决在2000平米空间内的高效散热难题。
其次,地方政策对数据中心PUE等要求非常严格。根据四川省发改委等6部门的联合发文,集群起步区内机架规模要达到30万架,新建数据中心PUE不应高于1.25。传统风冷型数据中心PUE值一般在1.5以上,智算中心必须找到节能降碳的有效措施。
再次,机房改造周期长,算力服务快速上线可能受阻。传统数据中心内上架AI服务器大多需要进行机房改造,工程量大且耗时长,难以满足智算中心对建设进度和算力服务上线的要求。
高密智算风冷算力仓开辟能效跃迁新路径
当高密部署、高功率散热、快速上线等需求叠加在一起,对智算中心建设提出了前所未有的挑战。生搬硬套目前市面上流行的解决方案显然无法破局,另辟蹊径正当其时。
立足脚下、着眼未来也许是寻找最优解的正确姿势。浪潮信息服务器产品线总经理赵帅认为,如何有效部署AI算力已成为客户对智算中心的首要诉求,过往构建超大规模基础设施的经验积累、对下一代架构的前瞻探索都有助于解决上述难题。
经过反复的研究探讨,天府智算西南算力中心采用了能投天府云和浪潮信息创新开发的42kW智算风冷算力仓。这是为AI服务器量身定制、支持高算力密度部署的新一代智算基础设施,在提升智能算力密度的同时可达成更好的能效比。
事实证明,强强协作往往事半功倍。能投天府云执行董事兼总经理任国斌表示:智能算力是新时代典型新质生产力,是推动人工智能产业发展的核心引擎。能投天府云将携手浪潮信息,基于产业生态的紧密合作关系,双方优势互补,推动42kW智算风冷算力仓在更多应用场景的落地;同时,也将发挥国有平台的产业引导作用,聚焦数字基础设施赛道,建设高标准超大规模数据中心,推进能源与算力的高效结合,建设数字经济基础和底座,积极推进智算中心的建设落地。
快速交付带来“省时”,有利于智算中心业务按预期时间表上线。智算风冷算力仓采用高度集成系统设备,以及模块化设计、积木式建设、去工程化安装等方法,实现AI服务器+数据中心基础设施一体化交付,建设周期缩短70%。
高密部署促成“省地”,让智算中心内功倍增。单机柜功率密度从3~7kW提升至42kW,意味着比传统数据中心减少40%模块部署量和60%建设用地。
高效节能造就“省电”,给智算中心卸下重负。独特的全功率简链路供电系统能降低电能损耗30%以上,而冷热通道全密封+列间空调高温进水模式可将制冷系统能效比提升逾10%,综合技术创新加持下的风冷散热PUE能降至1.25以下。
安全智能引致“省心”,为智算中心运营吃下定心丸。基于浪潮信息自研AI管理平台,结合AI智能调优算法,可促进安全可靠性提升30%;采用AIStation智能业务生产创新平台,还能有效提升大模型算力平台的使用效率,助力客户加速AI大模型开发与部署。
算效与能效比翼齐飞是下一代智算中心的进化方向
当AI大模型在伸缩法则(Scaling Law)的驱动下“卷”出天际,智算中心就必须在算效与能效两个维度比翼齐飞——一方面要满足大模型训练和推理对澎湃算力的要求,另一方面则需化解能源消耗造成的运营压力。
天府智算西南算力中心借助42kW智算风冷算力仓解决了快速部署与能效提升的难题,其在算效上同样找到了适宜的创新路径。浪潮信息川藏区总经理张健认为,生成式AI正在推动算力的衡量尺度从单机上升到系统维度,应以系统创新、全局优化的方式驱动智算中心迈上更高台阶。
浪潮信息AI团队对天府智算西南算力中心的算力系统进行专业设计,推进集群架构、高速互联、算力调度全面跃升。在系统架构上,采用单节点集成8颗加速器的AI服务器,节点内加速器间实现超高速P2P通信,节点间建立极低延迟、超高带宽的Infiniband通信网络;在大模型训练层面,结合源大模型的经验,对分布式训练策略进行优化,通过合理设计张量、流水和数据并行,精准调整模型结构和训练过程的超参数,使千亿参数规模AI大模型的训练算力效率提升至80%。
如果说能效与算效是智算中心腾空而起的翅膀,那么高效的算力服务则是其平稳落地的基石。并济科技副总经理周汉宾表示,并济科技作为成渝地区首家以算力服务为核心业务的民营企业,将承接各级战略布局要求,助推智能算力高质量发展。
据了解,天府智算西南算力中心建成后的算力规模可被高校研究所、科技型企业等消化,应用于人工智能、大数据、深度学习、智能语音语义、生物医学等领域。这将成为下一代智算中心赋能千行百业的最佳样本,期待更多的模式探索与落地实践纷至沓来。
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有