前言:2025年5月22日-24日,由中国电子工业标准化技术协会信息技术服务分会、信标委人工智能分技术委员会指导,ITSS数据中心运营管理组(DCMG)、DCMM金融行业社区技术委员会主办,双态IT论坛承办的“2025第十四届双态IT用户大会”在浙江乌镇成功举办。
2025年5月23日,2025第十四届双态IT用户大会之“人工智能管理与数据管理提升之道主题会议”圆满结束。本次会议由中国电子工业标准化技术协会信息技术服务分会、信标委人工智能分技术委员会指导,ITSS数据中心运营管理组(DCMG)、DCMM金融行业社区技术委员会主办,双态IT论坛承办,共有来自金融、央国企等行业的400余人到场出席。
中国电子技术标准化研究院信息技术研究中心高级工程师马珊珊从国际人工智能基准现状、国内人工智能基准工作以及下一步工作三个层面解读人工智能求索国家标准评测体系介绍及人工智能管理标准。
她指出,国际上围绕人工智能已经发布了法案、管理体系及标准等多项文件。为了提升我国产业规范化水平和促进技术路线收敛,完善配套评测基准,打造智能化时代的新“标尺”,电子标准院会同产学研用优势机构,共同研制“求索”人工智能国家标准评测基准体系,开发系列评测基准工具:人工智能系统性能测试基准(AISBench);大模型评测基准(LMBench);人工智能软硬件适配测试工具(AICL);AIMM人工智能管理能力评估。下一步,依托这四个评测基准工具,将不断完善人工智能系统的性能测评基准、软硬件适配评测工具、大模型评测基准和人工智能管理能力评估基准,欢迎大家的参与。
以下为演讲实录全文
《人工智能求索国家标准评测体系介绍及人工智能管理标准解读》主要从国际人工智能基准的现状、国内人工智能基准的工作以及下一步工作三个层面来介绍。
国际人工智能基准现状
随着Deepseek的火爆,人工智能从“闭源+大算力”,到现在的“开源+小算力”,人工智能不仅涉及芯片、大模型和框架等技术层面的竞争,更涉及到标准产业层面的竞争。
比如英伟达的CUDA通过高性能实现、稳定生态和广泛行业支持,成为GPU加速计算的实施标准;ChatGPT的成功离不开NVLink的超高速互连、全栈优化和规模化扩展。NVLink标准协议与CUDA生态的深度咬合,定义了AI基础设施的实施标准;人工智能管理层面,ISO、IEC在2024年发布了ISO/IEC 42001人工智能管理标准。从国际上的管理标准来看,不管是9001、27001、7701还是42001,其基础标准都是框架兼容、一脉相承、不断演进发展的;还有Deepseek开源,通过开源开发驱动标准的形成,加速标准迭代反哺形成行业共识,加速形成规范化的技术体系。
同时,美国大力推进人工智能标准及基准战略。2023年,发布《国家人工智能研发战略计划》(2023更新版)。其中战略六提出:通过行业标准和基准来衡量和评估人工智能技术。美国国家科学技术委员会也发布了可信赖人工智能进展报告。美国司法委员会、美国基金委员会通过项目及其他形式推动标准基准的测试。
一些行业组织,如MLCommon通过“测试规则-联盟标准-国际标准”三步走发展路线推动MLperf标准的研制;英特尔通过异构计算接口标准化推动oneAPI标准的研制;NIST也发布了AI安全标准的评估评估平台DIoptra。
欧盟主要是通过法案来推动人工智能标准的落地,于2024年发布《人工智能法案》;CEN/CLC则通过指定协调标准,重点支撑《人工智能法案》的落地,利用维也纳协议与ISO/IEC JTC 1/SC 42合作,大同人工智能标准化路径;经合组织也是从人工智能价值链视角出发,提供各类AI评测的工具。
说到基准测评工具,一是人工智能性能基准MLperf,它基于成熟的社区运作方式不断更新模型负载和工具,是当前最成功的AI 性能基准之一,其优势是能够不断且持续的更新,劣势是缺乏应用的泛化;二是国外软硬件适配工具oneAPI,英特尔主推的异构计算接口标准化,结构与CUDA类似,推出包括AI框架以及一些软硬件适配等方面的多种计算架构的标准;三是国外软硬件适配工具OpenCL,由苹果主推的软硬加适配的接口,由异构软硬件厂商联合贡献,非营利性组织进行维护更新,产业合力打造了第一个面向异构计算系统并行编程的开放式、免费标准。
在国外大模型测评基准方面,国外主要是学术机构开展大模型评测,如伯克利大学、加州大学等,通过开源的数据集和工具推动大模型的评测;美国NIST、基金委员会也通过不断的大模型项目以及其他模式来推动评测。
人工智能管理标准与规范方面,美国强调人工智能风险管理,逐步向加强人工智能监管靠拢,发布《人工智能风险管理框架》(AI RMF 1.0),从治理、映射、测量和管理的各层面,着重强调人工智能系统的特有风险,如数据质量、模型可解释性等问题对系统的风险影响。欧盟则是保持强监管路线,强调通过立法降低人工智能风险,促进人工智能的开发、部署和应用,发布《人工智能法案》(EU AI Act)。国际标准化组织ISO/IEC JTC 1/SC 42发布《人工智能 管理体系》(ISO/IEC 42001:2023),重点放在人工智能数据质量与治理、可信与安全、社会问题等开展标准研制。
国内人工智能基准工作
目前国内人工智能产业层面主要面临基础软硬件应用生态支撑不足、通用大模型能力有待提高、行业大模型技术门槛高等问题,国内正在大力推动人工智能标准的研制。
国内的人工智能标准组织主要是国家人工智能标准化总体组和全国信标委人工智能分委会。其中国家人工智能标准化总体组主要是负责拟定我国人工智能标准化规划、体系和政策措施,统筹协调人工智能相关国家标准的技术内容和技术归口。
全国信标委人工智能分委会主要是负责人工智能基础、技术、风险管理、可信赖、治理、产品及应用等人工智能领域国家标准的修订工作。成立包括电力、石油、物流、金融、通信等在内的工作组,开展针对国资委下属的各个行业和相关的一些行业标准的工作,同时也在开展区域性工作,比如京津冀工作组、长三角工作组的相应国际标准化工作。
在国家标准体系层面,我们在2020年的基础上,更新人工智能标准体系,2024年联合工信部四部委联合印发了《国家人工智能产业综合标准化体系建设指南(2024版)》。目标到2026年能够制定国家标准和行业标准50项以上,开展标准宣贯和实施推广的企业超过1000家,参与制定国标标准20项以上。
从上图可以看到,测试评估的重点规范人工智能相关能力的成熟度评估,以及通用性测试等原则与方法。安全和治理的重点是规范人工智能技术、产品、系统、应用、服务等全生命周期的安全要求,以及基于人工智能治理实际需求,规范人工智能的技术研发、运营服务和治理支撑技术等要求。
根据目前已经发布的人工智能国家标准,全国信标委人工智能分委会和国家标准化总体组联合各产业单位,共同研发了四项人工智能的评测工具:AISbench、LMbench、AICL、AIMM。
其中AISbench主要基于目前已发布的《人工智能 服务器系统性能测试规范》标准做的评测工具,覆盖人工智能加速卡、服务器、集群、人工智能计算中心等多种计算产品形态。主要测试性能指标、功能指标以及生态指标,其评测方法包含基准库和测试工具,也在不算更新。
AISbench与MLPerf对比来看,MLPerf主要是通过模型实现和数据集积累丰富,依托社区实现测试负载、工具等组件持续打磨。但是,MLPerf 不限制测试系统规模,关注指标单一,容易陷入局部最优的困境。而AISBench充分借鉴MLPerf历史经验,实现面向不同计算系统规模,提出多样化的模型量级,满足不同训练场景的应用;面向同一算力规模,统一超参数设置,不同测试结果可比性较强;支持微调、全量训练测试,更贴近产业主流大模型使用场景。
AICL主要是基于《人工智能 异构人工智能加速器统一接口》、《人工智能 深度学习框架多硬件平台适配技术规范》等国家标准制作,是跨架构、挂平台的标准化编程接口库,面向人工智能加速器与上册训练/推理框架适配提供非侵入式统一API接入方案。从硬件和硬件层面,硬件和框架层面,框架和硬件层面,多个维度推动人工智能软硬件适配的测试,后续会加入算子编译器的测试。目前相关国家标准正在研制中,预计年底会发布。
LMbench是基于已经发布的《人工智能 大模型 第2部分:评测指标与方法》、《人工智能 大模型 第3部分:服务能力成熟度评估》等国家标准制作的通用及行业大模型功能性能综合测评工具。包括评测基准、评测数据、工具还有平台,后续将研制多模态大模型、视觉大模型、代码大模型,以及重点行业大模型评测标准,持续扩充LMBench大模型测试基准。
AIMM是在ISO/IEC 42001《人工智能 管理体系》基础上,细化了人工智能管理能力要求,同时帮助企业明确人工智能管理作用,形成人工智能管理理念,建立人工智能管理机制,目前正推动该团体标准向国标转化。与ISO/IEC 42001的区别是它包含6个一级指标,以及19项二级指标,涵盖ISO/IEC 42001全部指标要素;不局限于管理能力维度;充分借鉴DCMM评估经验,提出多样化的模型量级,满足不同企业管理需求。
AIMM人工智能管理能力评估的标准主要是为了推动人工智能解决方案在企业的落地,也保证企业及人工智能产品或服务的合规。AIMM框架结了PDCA的概念,围绕人工智能赋能应用涉及的全过程,从战略、治理、资源、人工智能系统生存周期、应员工、安全可信赖共6个维设置AIMM模型能力域。
下一步工作
下一步,依托这四个评测基准工具,我们将不断完善人工智能系统的性能测评基准、软硬件适配评测工具、大模型评测基准和人工智能管理能力评估基准,欢迎大家的参与。
一是完善人工智能系统性能评测基准。持续升级迭代AISBench工具,完成对AI for science、多模态大模型等测试负载支持,扩展对计算集群、智算中心等大规模AI算力设施、以及存储、网络等维度的测试能力,完善多样化测试指标;建立测试基准门户网站,开源相关测试工具、SDK等,建设开源开放社区,定期组织AISBench。
二是完善人工智能软硬兼施配评测工具。持续补充领域特定接口、集合通信接口、编译器接口等新细分标准;持续升级AICL工具,扩展稳定性、有效算力等测试能力,全面支持南北向适配测试;联合上游应用方,定期发布AICL标准符合性产品名录和生态伙伴名录。
三是完善大模型评测基准。持续扩充、迭代通用大模型测试数据集;升级完善大模型测试工具平台,提高测评指标支持度;面向政务、金融、教育、钢铁、能源、电力等行业大模型,推动行业大模型标准研制、行业数据集构建。
四是完善人工智能管理能力评估基准。基于团体标准持续完善评估审核要点,补充特定领域证据要求;建设管理能力自评估网站,对外提供问卷自评估服务;联合首批试点验证单位,推动国标立项发布。


财经自媒体联盟

4001102288 欢迎批评指正
All Rights Reserved 新浪公司 版权所有