如何满足AI时代算力需求?中国电信给出 “算网一体”答卷

如何满足AI时代算力需求?中国电信给出 “算网一体”答卷
2024年09月20日 18:09 通信信息报

(记者 杜峰)沉睡2000多年的兵马俑与歌手 “跨时空同台”,用华阴老腔展现“大秦雄风”;用户只需要在微信内聊天框中输入内容后加一个符号,即可获取AI回答……当前人工智能飞速发展,智能算力作为人工智能发展的重要“底座”,成为行业备受关注的热点话题。9月19日,数智“新”北京暨2024(第二十一届)北京互联网大会召开,会议期间的“算网创新与人工智能分论坛”上,多位业内专家和企业代表围绕智能算力发展的热点问题论数汇智建言献策,共同实践算网新技术探索数字新应用,共同畅想算网创新与人工智能应用落地的美好前景,畅谈智算领域新未来。

图为中国电信北京公司总经理助理张康致开幕词

智算高速增长,成为经济发展新引擎

近年来,国家高度重视算力产业的发展,出台了一系列重要政策举措,实施了一大批重大工程项目,推动我国算力产业实现快速发展,为经济高质量发展注入了强大动力。据中国信息通信研究院测算,在算力方面每投入1元,将带动3至4元的GDP经济增长,算力指数提高1个点,GDP增长1293亿。

目前,国内算力市场正在快速发展。本次论坛上,中国信通院云计算与大数据研究所所长何宝宏介绍, 2018年至2023年,全球算力市场平稳增长,但智算赛道爆发。近几年,国内的算力市场持续增长,其中智能算力规模增长迅速,占比达到30%,尤其这两年国内智算增速高达70%左右,已经成为算力经济发展的新引擎。在算力服务商领域,我国数据中心市场规模排名前五的服务商分别为中国电信、中国移动、中国联通、世纪互联和万国数据,我国云计算领域市场规模排名前五的分别是阿里云、天翼云、移动云、华为云和腾讯云。从算力资源的行业分布角度看,目前我国算力资源主要分布在政企、公有云、金融与支付、视频、电商和游戏等行业和领域,政企占到26%,电商和视频均占到了6%。

图为中国信通院云计算与大数据研究所所长何宝宏介绍算力产业现状

在何宝宏看来,我国的算力资源建设正在从通算中心向智算中心演进,在服务器品类、芯片功耗、负载波动等方面均有较大差异,从而推动智算中心进行技术上的探索。在节能上风冷、液冷混合模式成主流散热方式;在网络上,算网融合成为发展新模式;在连接方式上,从单一的计算互联转向分布式互联。

不过智算网络高速发展的同时仍然面临着不少问题和挑战。何宝宏认为主要存在三大挑战:一是技术创新难度大,涉及网卡及网络设备等,技术体系复杂;二是标准推动难度大,技术路线尚未统一,标准尚在制定;三是生态构建难度大,网络需要和计算、存储协同发展,产业生态协同构建较难。

如何能让跨地区的算力在平台上实现流通?何宝宏强调了标准化的重要性。他表示,想让算力相互流通,平台就需要将跨主体、跨架构、跨地域公共算力资源通过统一度量方式和接口进行标准化互联,从而转化为通用算力,企业就能随取随用使用算力资源。

算网创新, 加码建设智算基础设施

人工智能的发展,背后需要更加强大的算力来支撑搭建模型、训练和推理过程。2024年《政府工作报告》中提出,“适度超前建设数字基础设施,加快形成全国一体化算力体系,培育算力产业生态”。面对AI产业快速发展,中国电信也在积极布局,致力于构建立足北京、辐射全国的算力基础设施。

在传统云时代,天翼云就在全国范围内构建了“2+4+31+X”的资源池,率先实现了全国一省一池的云资源布局,织就全国算力“一张网”,构建了“中心-省-边缘-端”的四级算力布局体系。

而在升级之后的智算云体系中,天翼云精心规划并构建了覆盖全国的“2+3+7+X”公共智能计算云池布局,重点在京津冀与长三角两大区域打造出具备万卡级别的智能计算集群,以此确保算力规模持续保持业界领先地位。今年6月,中国电信京津冀超大规模液冷智算集群正式落地,这是业内领先的液冷高性能公共智算中心,总算力供给约4000PFlops,可满足万亿参数模型训练。

图为中国电信北京公司云能力中心总经理李京介绍天翼云云智一体布局情况

在“算网创新与人工智能”分论坛上,中国电信北京公司总经理助理张康表示,“智能化时代已经到来,中国电信北京公司正加速布局算力基础设施,智算中心相继启用,努力促进新技术在各个领域广泛应用,并在提升城市管理效能与改善民生服务等领域发挥着重要作用。”

今年8月在中国电信集团统一组织下,中国电信北京公司联合中国电信研究院、天翼云公司,共同在现网成功完成了跨地域分布式无损智算网实验。该实验采用800G光传输技术,打造了千卡规模的分布式集群,实现千亿参数大模型在跨越120公里集群上的分布式训练,性能达到集中训练的95%以上,成功验证了分布式集群的可行性,积累了分布式计算集群构建的经验。

在前不久的2024中国国际大数据产业博览会上,中国电信北京公司与天翼云公司联合申报的“构建算力基础设施,铸就多元算力一体化布局”成功入选国家数据局发布的25个全国一体化算力网应用优秀案例,这也是北京市唯一入选优秀案例,成为全国首批一体化算力网建设的先进性、创新性代表。

张康表示,下一步,中国电信北京公司将依托京津冀超大规模液冷智算集群和拉远集群实验的成功经验,加快构建一体化算力网,助力打造北京市内1毫秒、环京2毫秒、京津冀3毫秒响应的低时延、大带宽、高可靠算力服务圈。

算力驱动, 人工智能走向大模型时代

大模型的开发、训练、微调及推理各个环节均离不开算力,大算力推动了人工智能发展走向大模型时代。此次论坛上,中国电信北京公司云能力中心总经理李京表示,大模型带动了智算的广泛大量需求,中国电信因为智算平台的助力,推动了天翼云向智算云的升级转型,同时因为天翼云的助力,使智算平台在面向客户的训练与推理场景具备了一点上云的能力。并且在中国电信息壤平台的总体纳管下,中国电信的智算云具有了满足客户多种的需求,灵活提供从自有到生态下的多元化多层次的立体算力调度使用能力。

图为中国电信北京公司云能力中心总经理李京介绍天翼云推动大模型发展情况

“中国电信的智算云具有满足客户多种需求,灵活提供从自有到生态下的多元化多层次的立体算力调度使用能力。” 李京提到,中国电信自主研发的“慧聚”“云骁”“息壤”三大平台,能够提供高算力、高吞吐、高兼容性训练能力,有效满足大规模、高性能、多样化异构算力跨区域调度需求。

图为北京大学智能学院党委副书记宋国杰带来大模型发展思考

国家统计局数据显示,中国10亿参数以上大模型已超100个,业内专家也提醒,需要充分认识到AI大模型实际落地过程中存在的挑战。

北京大学智能学院党委副书记、博士生导师宋国杰指出,虽然大模型技术具备巨大的潜力,但在实现其生产力转化的过程中,也面临着安全、可控性和社会影响等多重挑战。宋博士特别提到,未来的大模型技术应朝着轻量化、绿色可持续发展的方向演进,以适应新质生产力的要求。

中国信通院云计算与大数据研究所所长何宝宏提到,未来大语言模型的训练也会从缺智能算力转向缺少电力,研究机构Gartner预测,到2025年75%的组织都会面临持续的电力短缺。

面对这样技术新机遇和应用新挑战,需要从政府与企业协同发力,产学研用联合攻关,不断探索新技术、新应用和新产业。

图片来源:杜峰/摄

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部