【视频】高文院士:下一代鹏城云脑即将推出 训练万亿级参数大模型…

【视频】高文院士:下一代鹏城云脑即将推出 训练万亿级参数大模型…
2024年10月17日 10:00 羊城派

“这个奖项,是对国产超算平台的认可,对国家科技发展战略的支持和肯定,也是对团队工作的肯定。”10月17日,2023年度广东省科学技术奖公布。中国工程院院士、鹏城实验室主任高文团队的“国产E级高性能人工智能算力平台”项目荣获科技进步奖特等奖。

谈鹏城云脑Ⅱ

1.训练AI大模型突破千亿参数

高文在接受记者采访时介绍,为解决AI芯片的“卡脖子”问题并建设国产人工智能大科学装置,项目开展了基于国产NPU的E级智能计算架构与关键技术攻关,研制了首个全国产E级智算平台——鹏城云脑Ⅱ,研发了全链条智算基础软件栈,解决了中端GPU生态的国产替代问题。

鹏城实验室网络智能研究部副主任、北京大学深圳研究生院信息工程学院院长田永鸿进一步介绍道,鹏城云脑Ⅱ主要是针对高性能芯片设计和研制的国产算力平台,旨在提升整机的处理能力以弥补单一芯片性能不足,降低系统功耗,以满足日益增长的人工智能技术发展对算力的需求。

据介绍,该项目突破国产智算平台千亿参数规模AI模型训练技术,构建了“云脑视网膜”云边端协同使能平台,实现行业模型智能化生产与跨平台部署,在智慧城市领域实现规模应用。

近年来,团队通过与合作单位等密切合作,不断开展优化算子、增强内存和互联能力等方面的工作,对通信互联、系统重启时间、数据编排方式等作了大量优化尝试,使鹏城云脑Ⅱ性能不断改善。

“当然,我们也在国家的大力支持下,建设更大规模的集群,即采用更先进的芯片,持续在大模型训练的基础设施和智能算力平台方面能够继续引领国内的相关工作。”鹏城实验室智能计算研究部主任、清华大学计算机科学与技术系教授陈文光如是表示。

2.已支持上千个AI大模型训练任务

“E级算力描述的是算力的强弱,每秒能够进行1018次运算。”采访中,高文团队成员对“E级算力”的概念进行了通俗解释,并分享了鹏城云脑Ⅱ在大模型训练和智能算力方面的新进展。

团队表示,该项目为国家新质生产力的发展提供了强劲动力,涉及智慧城市、生物医药、智能交通等领域,并且已经开始在国家战略需求、地方经济社会发展需求以及中小企业发展方面发挥作用。

“事实上早在鹏城云脑Ⅱ上线时,实验室就拿出了100多P的算力,支持大湾区企业的发展。”田永鸿介绍,鹏城云脑Ⅱ有效支撑了金融、网络空间博弈对抗等重大需求,迄今已支持深圳市和各类用户的上千个AI大模型训练任务。近一年累计产生科研经济效益约7370.5万元,近3年云天励飞等企业利用云脑使能获直接效益超14.4亿元。项目还首创了可推广可复制的大规模国产智算方案,带动武汉等地25个智算中心建设,总算力投资超118亿元。

“基于鹏城云脑Ⅱ,事实上带动了国内一半多的国产智算中心建设。”田永鸿说。

谈芯片“卡脖子”国内芯片性能可达国外最优产品的80%

缺乏高性能芯片、芯片设计和生产都面临“卡脖子”难题,我们该如何应对?

对此,高文回应称,所谓高性能就是指单一芯片的处理能力要非常强,而且功耗不要太高,这就要求芯片设计能力和工艺生产能力要很强。在高性能计算领域,国内虽然面临着芯片制约,但通过技术上的集成和优化,例如在体系结构方面的改进,可以弥补部分差距。

“面对芯片的设计和生产都涉及到的‘卡脖子’问题,我们采用三维堆叠等技术上的集成,可使国产的7纳米工艺的芯片,在性能方面至少能达到国外最优产品的80%”高文分析了具体的应对之策。

中国工程院院士、鹏城实验室主任高文

谈获奖是对达到国际一流水平的国产算力的认可

此外,高文团队还分享了此次获得广东省科技进步奖特等奖的感受。他们表示,这一荣誉不仅是对团队努力的认可,也是对国家科技发展战略的支持和肯定。

“前年GPT出来以后,大家其实面临一个很大的问题:国产算力到底能不能训练大模型,特别是千亿参数和万亿参数的模型?我们通过自己的努力,证明国产算力可以训练千亿参数的模型,并且在这个过程中完善国产算力生态,进一步促进国产智能算力的后续发展。并进一步促进了后续国产智能算力的发展,这个奖也是对这一过程的认可。”陈文光感慨地说。

鹏城实验室智能计算研究部主任、清华大学计算机科学与技术系教授陈文光

“这个奖,也是对国产智能算力平台能用、好用的认可。老实说,项目开始之初,团队带头人高文老师也顶着很大的压力,花那么多钱,值不值得?从实际效果来看,是值得的!”田永鸿还表示,目前的国际科技复杂形势下,我们必须要走科技自立自强的路。鹏城云脑是其中的典型代表,相信未来国内会涌现越来越多团队和成果。

鹏城实验室网络智能研究部副主任、北京大学深圳研究生院信息工程学院院长田永鸿

“高老师带领我们做鹏城云脑Ⅱ的时候,国际科技博弈背景还没有这么复杂,但现在回过头来看,如果没有这样一台机器,也许我们科研可能会面临更不利的形势。事实证明,这是能够解决国家重大科研问题的一项工作。”田永鸿进一步补充道。

“30多年前,中国是没有能力做超算的,鹏城云脑Ⅱ的成功,意义重大。”高文还告诉记者,那时候国际上一些发达国家,处处限制着中国,高科技产品要么不能进口、要么是技术保密,即使花钱买了,可能连机器也不给碰。“中国科学院曾经买过一台先进的机器,买回来后,机房上锁后,钥匙只放在外国人手里,他们每半年换一次班,防贼一样防着买了机器的中国人,碰都不给碰,国内很多搞科研的人,回忆此种种,都忍不住要掉眼泪……”高文感叹说,虽面临种种困难,中国科学家奋起直追,如今从芯片到机器,中国的超算已是国际一流水平,用国产的芯片做出了我们自己的生态。

未来展望预计在今年底或明年初建成下一代鹏城云脑

谈及下一步的工作,高文表示,鹏城实验室主要在网络通信方面做工作,这方面,深圳有华为、中兴通讯等相关企业。未来5年、10年、15年到底用什么技术,这些企业当然会有考虑和储备,但对于鹏城实验室来讲,更多的是会做更为超前的事情,“没人做的我们要做,大家不愿意做的,我们也要做。我们可以先试错,哪怕做了结果是错的,也可以告诉大家,这条路走不通,大家不要再重复浪费钱和精力,如果做通了,那基本就是可以沿着这条路继续往前进,我们按这种思路,后续可能会布局一些研究项目。”高文如是说。

高文还透露,下一代鹏城云脑的算力将达到16000P,约为云脑Ⅱ的16倍,可用于万亿级参数的多模态大模型训练,预计在今年底或明年初建成。

团队也为广东的科研环境和科创空间提出建议。“我们希望将来能有更多与深圳本地中小企业互动的机会,希望政府能搭建桥梁,让互动渠道更通畅一点。”高文说。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部