本期我们将从标准、评估试点及展望三个方面详细介绍“2020-2024运维的跃迁——智能运维通用要求国标诞生到应用”。
标准简介
01 研制背景-势在必行
首先是政策层面,党中央、国务院多次在重要会议上提到了新一代信息技术与各行业的融合。智能运维作为人工智能在运维服务领域的应用,是大数据、人工智能等新兴技术与运维服务高度融合的具体体现,顺应国家政策导向。
其次,在技术层面,运维部门人员面临的挑战越来越大,最常见的就是,运维规模变大大、还有云原生、信创等新技术架构。有不少的国标参标单位在5年内设备规模翻了2-3倍;在金融科技的人员投入中,虽然开发人员数量增加很多,但运维人员数量却没有成比例增长;再加上使用的技术栈也在发生变化,使运维复杂度增加,传统的制度流程+人工的服务模式已经力不从心,这也决定了智能运维是运维的必然趋势。
然而,由于缺乏统一标准和框架指导,各家用户单位的实践应用效果参差不齐,甚至不乏“伪智能运维”项目,比如买了某个号称智能运维的产品、或者只做了一个大数据平台。因此我们有必要研制标准,提供一个合理的、切实有效的智能运维建设指导框架。
02 系列标准-统一框架,逐步深入
在国家政策和技术发展的双重驱动下,在全国信标委信息技术服务分技术委员会(ITSS分委会)的指导下成立研究智能运维标准的编制组也成为必然。
在国标预研阶段,编制组提出了系列标准的考虑。第一部分是通用要求,它构建出智能运维的能力骨架,描绘了智能运维的基本样貌,解决了运维能力构建和应用的问题。在此基础上,对智能运维区别于传统运维的三个核心能力要素“数据、算法和技术”做进一步的规范,其中数据是支撑智能运维的基石,算法是挖掘数据价值的关键,技术是实现智能运维的手段形成了国标的第二、三、四部分。
03 研制历程-计划周密,苦中有乐
自2020年8月编制组成立以来,编制组以用户单位为主导,携手国内产学研各界的专家同仁,克服疫情、距离带来的不便,紧锣密鼓、通宵达旦,思辨求是,历时三年,于2023年9月7日,GB/T 43208.1《信息技术服务 智能运维 第1部分:通用要求》国标顺利发布。
以下是这三年来的重要里程碑事项:
2020年:
2021年:
2022-2023年:
04 智能运维框架-三驾马车
智能运维的框架是“以组织治理为引领、以场景实现为中心、以能力域构建为支撑”的“三驾马车”框架。如下图所示:
场景是智能运维需求的起点,也是最终效果体现所在,通过智能特征宣示了与以往传统运维场景的区别。“以场景实现为中心”旨在表明智能运维应以运维业务为中心,而不应脱离运维业务在技术上闭门造车。
能力是支撑场景实现的底座,犹如一棵参天大树,我们看到枝繁叶茂的场景,一定需要同样发达扎实的根基。“以能力构建为导向”说明底座能力的重要性,底座能力的构建既是场景实现过程中的经验沉淀,也可通过合理规划为未来更多场景实现做好支撑储备。
组织是智能运维道路上的持续力量,智能运维不是零星场景的昙花一现,也不是技术平台的简单堆砌,智能运维是全新的运维方式数据和算法驱动的智能运维将更有效地打破原有职能团队间的“竖井”,需要依靠“以组织治理为引领”实现组织的融合创新,应对各种错综复杂的环境。
评估简介及试点总结
01 评估简介
2024年6月21日,ITSS分会秘书处发布了关于开展信息技术服务智能运维通用要求符合性评估工作的通知,这是对2024年4月1日正式实施的GB/T43208.1-2023《信息技术服务 智能运维 第1部分:通用要求》国标推广应用的重要举措。该通知针对申请条件、提交材料和申请流程做了详细说明,大家可以登录ITSS官网(www.itss.cn)进行查阅。
在通知发布之前,中国电子工业标准化技术协会信息技术服务分会已于2022年7月正式开启了智能运维通用要求标准的应用试点工作。同时通过培训和考试,已经建立起了一支由20位专职评估师和33位独立评估师组成的智能运维专业评估师队伍,这为后续专业的智能运维评估的开展奠定了队伍基础。
目前,已经有建设银行、平安科技、光大银行、浦发银行和国泰君安证券等5家单位参与了智能运维通用要求标准的应用试点,在标准的规范引领下,各单位遵循体系化思维,夯实智能运维支撑能力,锚定各自领域的运维痛点和难点,在众多场景中积极探索和改进,取得了一系列具有实质性、创新性的建设成果。2023年10月,信息技术服务分会在“云原生和大模型革新IT生产力主题会议”上为第一批ITSS智能运维团标应用试点单位颁发了评估证书。
02 试点评估启示
本次试点评估依据智能运维通用要求标准,涉及组织治理、运维场景和智能运维能力域等254项检查点,按照评估准备、现场评估、评估分析和评估汇报四个阶段展开。现场评估环节,评估师们经过资料调阅、人员访谈、现场演示、综合评议等审核过程,认真仔细地评估了各单位开展智能运维能力建设及应用情况,有效地达成了验证智能运维标准在应用推广中发现的问题和良好实践,构建良性化标准周期生命链。本次试点评估主要有四个方面的启示,下文逐步展开,以飨读者。
(1)总体评估结论——框架和条款适用,可指导促被评估单位组织级、体系化建设
验证了组织治理、场景实现和能力域标准框架的适用性,可以有效指导被评估单位智能运维的建设和提升。
部分标准条款的要求高于当前平均实践水平,在后续应用推广过程中,适当选择标准关键条款,以点带面开展评估,并与时俱进关注业界最新发展。
点面结合的组织级评估,促进被评估单位体系化审视,场景化提升,对标互促,达成以评促建的目的。
(2)场景实现评估——关注场景工程化,也要注重场景应用价值
场景实现评估侧重通过审查被评估单位在场景分析、场景构建、场景交付、效果评估等四个关键过程中的实施成熟度,衡量组织在实现一个或多个智能运维场景的工程化水平与持续改进能力。
以下内容是我们通过本次评估在场景实现部分发现的亮点和提升点,以便给大家在该部分建设和提升过程中有所启发和借鉴。
亮点
· 1+1>2的混和场景设计和实现;
· “左移“跨域场景。
提升点
· 多数单位的各场景呈点状离散状态,场景间难以关联;
· 场景利益相关方协作有待提升,应明确和同步相关方的定位、职责和场景目标,以提升场景应用效果;
· 组织级运维场景实现机制有待健全,与成熟的应用研发过程比较,在需求分析、方案设计、测试和推广方面存在差距,需进行适配提升,提升场景应用效率和价值。
解读
本次评估过程中,各单位提供的评估场景有单一场景,也有混合场景,我们比较注重场景是否按照了工程化的四个关键过程开展,除了符合性评估外,我们也关注其场景对运维目标达成的价值,这为我们未来开展成熟度模型标准带来一定的启示。
评估过程中发现的亮点突出其价值,提升点则主要在工程化实践方面的缺失或不足。本次评估过程中,某行的架构视图场景给评估者留下了深刻的印象,该场景属于混合场景,涉及了可视化应急、问题定位等方面实现深度应用,此外,该场景还与IT系统开发、测试、生产相结合的架构常态化管控机制相结合,实现了“左移”架构管控的管理。
(3)能力域评估——能力平台化,能力沉淀及应用推广情况
构建一个有效的智能运维场景,离不开底层能力的建设和支撑。一个完整的场景建设分析过程,应该基于数据管理、分析决策、自动控制能力域充分评估,以确定待建设的能力项和待提升的能力要素。因此,在智能运维标准评估中会考量数据管理、分析决策、自动控制三大能力域是如何支撑起各类个性化智能运维场景的建设。同时聚焦各组织基于7个能力要素的17个能力项的能力沉淀方式。
数据管理能力域是对运维数据进行全生命周期管理和应用的能力组合,提供高质量、全覆盖、互联融合且满足时效性要求的运维数据。
分析决策能力域是使模型自主对运维场景做出预测、判断、行动的能力组合,针对特定的业务目标,通过筛选、整合、加工相关运维数据,综合运用规则和算法模型。
自动控制能力域是对运维对象的执行和处置过程进行管理及应用的能力组合,利用自动化技术或手段,使运维活动按照预期目标自动执行,提升运维效率。
以下内容是我们通过本次评估在能力域部分发现的亮点和提升点,以便给大家在该部分建设和提升过程中有所启发和借鉴。
亮点
· 建立了较完备的运维数据中台,集合各种类型运维数据;
· 通过企业架构治理,建立运维数据建模和统一运维数据标准,大幅提升运维数据质量;
· 初步设计和构建了算法平台;
· 构建了自动化平台失效补偿机制。
提升点
· 关键运维数据缺失、数据质量较差、数据分散等数据问题依然存在,需要长期持续投入数据治理;
· 复杂算法应用门槛较高,需持续提升算法应用便利性;
· 部分运维平台级别定义不清晰,应明确系统级别,重点关注平台高可用、循环依赖等架构问题,提供与级别对等的运维保障措施。
解读
能力域的评估不等同于对能力平台的评估,但在本次评估过程中,各单位更多还是通过数据管理平台和自动化平台等平台来展示和佐证其相关能力的沉淀和验证,分析决策能力域目前则尚难形成可泛化使用的平台,相关能力项则更多是体现在具体的应用场景中。在算法管理标准研制过程中,我们也了解到有新参与单位已建有运维层面可用的算子库,我们设法在后续年度报告中邀请相关单位分享有关内容。
以数据管理能力域为例,数据治理是个持续提升的过程,很难用一个平台来满足当前大家对数据质量方方面面的要求,往往是人员、技术、过程等要素的融合持续推进来解决其面临的问题和挑战。
(4)组织治理评估——规划组织化,全方位而非割裂局部的规划是成功关键
组织治理评估是从组织战略、管理方针、组织架构、组织文化及相关方需求和期望等五个维度对被评估方的组织级能力进行审查,帮助被评估方从组织层面进行智能运维相关工作的统筹规划,协调资源,统一建设,指导结合自身的场景因地制宜做好科学的规划和实施。
以下内容是我们通过本次评估在组织治理部分发现的亮点和提升点,以便给大家在该部分建设和提升过程中有所启发和借鉴。
亮点
· 自上而下、全面、长期且持续迭代的规划保障了智能运维建设的稳定提升;
· 通过策划形式多样的组织文化促进团队融合。
提升点
· 部分规划更侧重平台功能,而忽视承接科技和运维目标自上而下的全面规划;
· 部分规划知悉面窄,只存在于运维研发团队,其他专业技术团队参与度低;
· 进一步明确组织目标、团队定位和职责,促进团队融合。
解读
《人类简史》指出智人之所以可以在地球上脱颖而出,在于其协同和讲故事的能力,智能运维比之传统运维也更注重在协同和规划能力,组织间的融合体现了组织的智能,底层语言换成了数据;规划则是统一组织目标并驱动组织协同的蓝图,智能运维路漫漫其修远兮,如果没有规划,则更容易半路夭折。
某评估单位一方面自上而下用建模的方式,形成运维业务的顶层设计,一方面自下而上收集系统状况,完善业务模型资产,保证业务模型与IT系统一致性,最终形成运维业务模型,实现统一架构设计和管控,使智能运维按照一张蓝图有序实施。
展望
展望未来之前,我们回归初心,正如上文所述,我们在开启智能运维第一部分国标立项的时候,大家关心国标研制亟待解决的三个核心问题是:1)什么是智能运维?2)目前组织的水平如何?3)下一步该如何提升?其中2)和3)的回答,一定程度上是需要通过智能运维成熟度模型来给出,然而,在标准研制开启的时候,我们尚处于初级发展阶段,国标工作组的指导组领导们清醒地认识到这一点,及时地指出当前阶段提出成熟度模型还不成熟,工作组应务实地先解决智能运维能力通用框架问题。
随着通用要求国标发布,在“三驾马车”通用框架的指导下,一方面,系列标准研制的深入推进,为成熟度所需不同级别的差异辨识度做了知识探索和储备,另一方面,通用要求评估案例的积累,深入了解各自在智能运维实践道路上的成果和挑战,这些都为智能运维能力成熟度模型做好了标准研制的准备。这是我们工作组的一项使命,完成智能运维能力成熟度标准的研制,为处于不同发展阶段的广泛运维服务方可以更好地融入到智能浪潮中。
智能运维国家标准工作组介绍
在ITSS分委会的指导下,智能运维国家标准工作组于2020年成立,至今为止工作组已包括了银行、保险、证券、政企、研究机构和厂商在内的113家单位。工作组下设立指导组、总体组、项目管理组及各编写组。指导组主要由智能运维领域专家组成,负责技术指导;总体组主要由各编写组组长及副组长单位组成,负责协同系列标准间的架构关系和一致性;编写组包括WG1通用要求编写组、WG2运维数据治理编写组、WG3算法服务管理编写组、WG4产品技术规范编写组,以及实施指南和年度报告编写组等。
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有