高性能计算产业福音!六大维度重新度量HPC

高性能计算产业福音!六大维度重新度量HPC
2022年12月16日 14:56 黄海峰看科技

文/黄海峰

在计算领域中,HPC高性能计算(High Performance Computing)凭借其高算力、高存力、高运力的特点,在科学研究、航空航天、气象预报、能源勘探、工业制造、生命科学、智慧城市等政府及科研领域被广泛应用,对增强国家的科技竞争力有着不可替代的作用。

根据HyperionResearch等机构的统计,2021年高性能计算集群全球市场约为277亿美金,其中中国市场占比约为30%。高性能计算建设规模大、应用领域广、经济带动能力强,成为推动社会发展的数字基座,是毋庸置疑的“国之重器”。

在需求和政策的牵引下,2022年2月,国家发改委批复同意在京津冀、长三角、粤港澳大湾区、成渝、内蒙古、贵州、甘肃、宁夏等8地启动建设国家算力枢纽节点,并规划了10个国家数据中心集群。

至此,“东数西算”工程正式全面启动,全国一体化大数据中心体系完成总体布局设计。截至目前,全国已建成了9个国家超级计算中心,20多个人工智能计算中心。这些新型基础设施服务了众多的能源企业、医院、高校、制造业企业等,推动数字经济快速发展。

然而,随着数据价值的不断提升以及大数据、人工智能等新兴数字产业的兴起,新场景、新需求让高性能计算,由“大计算”的HPC加速迈向“大计算+大数据”的HPDA(高性能数据分析)。

在此背景下,计算性能已不再是评价高性能计算集群的唯一标准,集群的综合性能日益受到重视,尤其是与数据息息相关的存储系统。在该领域,“存储建多大、网络要多快”等问题仍然缺少参考依据。显然,业界需要一套新的评价标准及评测程序,来全面、客观、按需地对高性能计算系统性的计算、存储等作出评价。

对此,近日CCF高性能计算专家委员会,中国信息通信研究院,上海交通大学,国家超级计算济南中心,国家超级计算长沙中心,清华大学,北京大学等二十多家单位,共同编写了《高性能计算系统性能评价白皮书》(以下简称白皮书)。白皮书从科学计算、AI计算、存储、网络、能效和平衡性6个维度,选取了19项指标刻画高性能计算系统的整体性能,同时还调研了Top500主流系统的设计规范,致力于以实际需求牵引系统设计,以行业经验为指导系统选型,以提高系统实际使用能效为首要目标。

笔者研读发现,该白皮书有三大亮点:一是洞察高性能计算性能评价现状;二是从六大维度度量高性能计算性能指标和评价规范;三是给出典型算力、典型场景下高性能计算性能评价方法的应用。

“尺子”歪了?高性能计算性能评价需要新方法

传统的高性能计算行业以算力作为核心生产力,但随着HPDA的发展,高性能计算系统的业务负载需考虑HPC、大数据和AI的混合叠加,这对于数据的存储和处理能力提出了更高要求。

当数据存力不足或者效率低下时,数据就无法高效流动、按需使用。因此,HPC不仅要“算好”,更需“存好”,这就要求存储设备平衡CPU和IO性能;同时,面对日均产生的数据量可达PB级、数据格式多样的HPC场景,数据处理和存储的效率也需要及时跟进,如存储设备实现多协议互访,提升数据结构多样化的处理效率。此外,数据并发等场景对HPC的网络性能,以及绿色低碳发展对HPC的能耗都提出了新要求。

可见,只有存储、网络、计算等各个组件高度融合、无缝衔接,方能真正形成新的核心生产力,当代高性能计算的发展趋势倾向于整体的综合性能。

那么,如何衡量高性能计算集群系统在目标场景下的综合性能?当然是找一把合适的“尺子”,可惜的是,现有评价方法对新场景关注不够。白皮书指出:“现有的性能评价规范专注细分领域,存在重计算、轻存储、评测指标分散、缺少应用场景和缺少综合的性能评价规范等缺点。”

没有规矩,不成方圆。若“尺子”不准,以此为指导设计出的高性能计算集群,不能满足AI、生信数据分析等新型应用场景的需求。这或将导致我们费力不讨好地打造出:跑分高,但实际应用差的“偏科”集群;数据存储和读写成瓶颈的“低存力”集群;不符合绿色节能趋势的“高能耗”集群。

究其原因,我们发现,现有高性能计算评价标准呈现出“缺少行标国标、评测程序分散、评测领域单一”的问题。

从上面的表格中不难看出,现有的高性能计算性能评价规范非常碎片化。国内外标准化组织尚未发布针对高性能计算集群综合性能评价的国家或行业标准;现有标准集中于数据中心和存储,缺少集群性能相关的国标、行标、ISO标。

应运而生!六大维度构建科学度量

行业亟需一套新的评价标准,来弥补现存指标设置与评价规范方面的不足。

笔者惊喜地发现,此次白皮书提出的测试程序,从科学计算性能维度、AI计算性能维度、存储性能维度、网络性能维度、系统能效维度、系统平衡性维度等六大维度总计19项基础指标出发;根据指标权重计算出每一个维度的得分;最后,根据维度得分,与算力同级的集群对比,或者划分集群类型特性。

该测试程序在充分调研高性能计算系统应用场景和技术发展趋势的基础上,选取有代表性的指标设计综合评价体系,符合当前高性能计算集群特性。

一是,科学计算性能维度包含HPL双精度浮点计算性能、HPCG双精度浮点计算性能共2个指标,用于衡量高性能计算集群以双精度浮点处理典型科学计算内核的性能。

二是,AI计算性能维度,包含图像推理任务的计算性能、图像训练任务的计算性能共2个指标,用于衡量AI计算集群以典型业务负载表现为衡量方式的性能。

三是,存储性能维度,包含文件系统单客户端单流带宽、文件系统单客户端多流带宽、文件系统聚合带宽、文件系统聚合IO操作速率、多协议平均访问效率共5个指标,参考了在IO500等榜单中被广泛使用的测试基准,同时扩展了存储新能力(多协议互通)的测试,衡量高性能计算集群存储系统的性能特征。

四是,网络性能维度,包含点对点通信带宽、点对点通信延迟、网络对分带宽与注入带宽比值共3个指标,以描述高性能计算集群的网络性能。随着集群规模的扩大、精度要求的提高、模型趋于复杂, 以及数据中心、云计算、异地超算等分布式基础设施的概念提出,集群对IO通信性能的需求迅速增加。网络通信也成了评价集群性能的一个不可或缺的维度,与存力一同保障了算力的高效率运行。

五是,系统能效维度,包含单位功耗支持浮点计算能力、单位功耗的可得存储容量共2个指标,用于评价高性能计算集群的能源利用效率。随着高性能计算集群算力突破E级大关,以及数据量的爆炸性增长,高能耗将成为未来集群的核心挑战。业界提升算力与存力的能源利用效率势在必行。

六是,系统平衡性维度,包含内存容量与核心数比、BurstBuffer与内容容量比、长久存储与BurstBuffer容量比、内存与BurstBuffer的带宽比、BurstBuffer与文件系统的带宽比共5个指标,用于评价高性能计算系统的容量层级。

在得出六个维度的评分后,该评价规范还将性能评分按照公式计算,再加以权重,得出最终评分。

从上述评测程序,我们可以说,这套由“产学研用”携手共创的高性能计算系统性能综合评价体系,以综合指标提升效率,以典型需求牵引设计,以行业经验指导选型。评测程序覆盖高性能计算系统的计算、网络、存储等组件,反映系统实际应用的性能;评分方法有理论依据,综合反映集群性能;评分方法体现“计算与数据并重”、“多功能一体”、“绿色节能”等最新趋势;最终形成开放的、自主可控的集群性能评价标准与评测工具。

值得一提的是,白皮书还提出的性能评价方法主要有两个应用:其一,指导典型算力下的集群设计,即在给定算力下,如何设计和选择其他组件的性能;其二,分析典型场景下的集群特性,将集群划分为“计算密集”、“IO密集”、“计算+IO密集”、“AI计算密集”等类型。

白皮书还通过调研不同场景案例,展示了评价方法在分析不同算力下的集群设计、超算集群类型划分中的作用,包括基因测序、气象预报、油气勘探、自动驾驶和新材料设计领域,研究不同场景下的应用特性和典型,分析不同应用场景下的超算集群需要拥有的性能特点。

比如,当前自动驾驶系统向L3及以上级别升级,每辆车安装的雷达、摄像头、传感器数量和精度要求成倍增加,对应路测里程和产生的数据量也成倍数增加。这些变化对存储空间、访问效率和计算算力都提出了新的挑战。

为该场景设计的一个典型超算系统主要硬件配置和关键性能显示,这台超算系统的浮点计算能力总和达到了16PFLOPS,其中GPU贡献了82.5%计算能力。为满足自动驾驶训练的高速数据请求和大批次数据缓存需求,每CPU核心配备了6GB内存,文件系统带宽达到79GB/s。这台超算系统计算能力AI性能突出,是一个“AI密集型超算系统”。基于此评估,企业就可以判断该如何建设高性能计算的存储、网络等系统。

评价方法的推出只是一个开始。白皮书指出,未来将基于当前方案展开三点工作:第一,基于评价规范开发评测程序,降低在不同架构超算上运行评测程序的难度;第二,基于评测结果,定期选取性能优异、有特色的系统,构建“优秀高性能计算系统”榜单;第三,建立社区,业界共同探讨与优化性能指标。

笔者观察:削足适履不如重立标准

综上,《高性能计算系统性能评价白皮书》的发布,全面对高性能计算性能评价指标、评价方法的现状及演进趋势进行深度剖析;充分考虑计算、存储、网络等ICT基础设施对HPC性能的影响及各评价指标相互间的联系,提出了一整套评价指标,并针对高性能计算典型应用场景,进一步分析和验证这些评价指标的关联性和合理性。

更重要的是,该白皮书的问世将缓解国内缺乏高性能计算综合评价标准规范体系的现状,能够更好地引领高性能计算走向存算并重、绿色节能、多功能一体的技术趋势。

尽管该评测方案在加权比重、参考数值等方面还未完全成熟,但笔者坚信在产业合力之下,这把度量“国之重器”的“尺子”,将为高性能计算产业“量出”光明的未来。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部