运维观|建设银行:Eco-Ops运维实践,激发生态共创的无限潜力

运维观|建设银行:Eco-Ops运维实践,激发生态共创的无限潜力
2021年11月09日 18:11 广通优云

|本文首发于公众号:智能运维前沿,根据中国建设银行运营数据中心副处长王艳华演讲整理而成,有删改。

01

建行云运维开发实践现状与挑战

建设银行作为大型国有商业银行,客户体量大,业务范围广泛。随着国内外环境的变化,根据“十四五规划”要求,建设银行在不断积极践行新发展理念,探索“新金融”落地实践,目标是建设“以数据为关键生产要素、以科技为核心生产工具、以平台生态为主要生产方式”的现代金融供给服务体系。

为此,建设银行一直在推动“住房租赁、普惠金融、金融科技”三大战略,开启第二发展曲线,实现数字化经营、生态化业务。建行云生态是建设银行落地三大战略和第二曲线的基础支撑,是数字化经营的操作系统,是生态化业务的载体和渠道。如果业务战略是一支探照灯,“云”就是业务的影子;业务到哪里,“云”就在哪里。随着三大战略推进,建行云业务蓬勃发展——云规模3年发生了数量级的变化,覆盖集团一体化、实体经济、政务服务、住房服务、普惠金融等9大领域。

同时,建行云的目标客户发生重大变化,不仅服务本行及集团业务,也助力国家经济发展,赋能合作伙伴,服务百姓社会民生,涵盖了政府、企业、军队、机构等战略合作伙伴。

业务的快速发展的同时,建设银行的IT技术架构也在不断演进:分布式、容器化、信息技术创新带来了越来越多的新产品和新技术,这些都对运维提出了更高的要求。为贯彻“规模化管控”和“双态运维”的要求,建设银行开始逐步探索云运维的落地实践和变革转型,运维管理体系从最初的流程驱动,向开发驱动、数据驱动、生态驱动演进;运维技术支撑,从人工操作向自动编排、自主管理到自我进化和发展演进。

建行云运维能力的演进

云时代的到来为建行IT运维模式带来了全新的挑战,运维需要在云平台上实现应用的快速部署、及时更新与实时监控的同时,还需要由后台走向前台,作为一种全新的业务服务形式,推动全行的数字化转型。而这种云运维模式在其演进过程中,也存在着诸多困难与挑战,可以总结为以下5点:

· 运维范围外延扩大自身原有、集团内、合作伙伴、外部客户等,多种运维体系、运维思想并存;

· 运维对象多种多类随技术发展,运维对象越来越多,包含不同地域、不同技术栈,云环境、传统环境、移动环境等;

· 维护场景纷繁复杂监控和变更管理、业务连续性管理、服务水平管理、多云管理、成本管理等端到端的场景要求;

· 管理需求一户一例包含自身敏态、稳态的运维管理要求和客户自身的特殊管理和要求,千家千面;

· 运维管理复杂度指数级攀升随着运维服务多租户化,多场景化的演变,结合着不同管理要求、不同技术体系,运维工作的复杂程度呈指数级上升

建行生态化运维(Eco-Ops)方案,正是针对以上问题的一种全新模式的运维体系。生态化运维(Eco-Ops)的建设是对运维模式的突破性探索实践,通过打造“开放共享、众创共建“的运维生态,支持技术共创,鼓励成果共享,解决合作伙伴在数字化转型过程中的痛点,推动行业大环境协同发展,创造更多合作共赢的机会。

02

建行云生态化运维体系

什么是好的运维?好的运维是将最合适的技术快速应用于生产实践中,满足业务敏捷发展、技术快速迭代的需求,让运维成为业务拓展的助力,而不是阻碍业务快速发展的绊脚石。

建设银行生态化运维(Eco-Ops)是以生态圈运维能力提升作为目标,利用技术平台支持成员场景开发,分享公共能力,鼓励成果共享的运维体系。生态化运维理念是“开放共享、众创共建”,将运维由单打独斗模式转变成共同奋斗,从运维平台建设升级走向生态演进。通过自身与生态圈的连接,形成运维共识,可以获取圈内提供的最佳实践、公共服务、协同的运维运营组织,快速构建自身的运维服务体系,并可以通过平台进行二次开发、成果共享,形成生态圈的良性循环。

生态化运维的“五个特征”和“八大能力”

“五个特征”分别是整体性、开放性、可持续性、多元化和服务化。

· 整体性,生态化运维是从方法论、制度流程、组织架构、技术能力、运营管理、内外部环境等全方位、多角度整体考虑的运维模式,面向生态圈成员整体而不仅仅是组织内部。

· 开放性,开放是生态的基础,包括技术、服务、理念以及价值的开放,具备以客户价值为核心的跨行业开放式的架构设计。

· 可持续性,生态圈需要经营管理、价值引导和文化润泽等生态运营举措,如采用仲裁管理、激励机制、评价反馈、开源管理、生态大学、生态链管理,切实保障和推动生态圈的互利互赢和良性可持续发展。

· 多元化,生态圈中涵盖不同行业、不同地域、不同性质的多元化组织。

· 服务化,是指将服务接口标准化,所有运维能力都以服务的方式向生态圈开放。

为满足生态化运维这五个特征,生态化运维需具备以八大能力:

· 运维技术中台能力,运维能力通过碎片化中台沉淀,是生态化运维的基础支撑能力;

· 多租户支持能力,以混合云租户的形式提供开放能力,是生态共存的方式;

· 服务管理集成能力,生态圈中每个组织共享出来的运维服务需通过公共平台集成发布,是共享、众创的关键;

· 端到端安全能力,保障从服务发布到使用的企业级流程安全,是生态圈的生存基础;

· 生态管理能力,生态圈需要通过合理的运营才能发展壮大,是良性演进的融合催化剂;

· 运维实践能力,保障共享的运维能力能够快速在其他组织中参与实践,是生态化运维落地的必要条件;

· 组织保障能力,以全新的组织架构和绩效考核推动运维生态化转型,是生态运维动力源;

· 产品化能力,在运维中台的基础上提供将运维工具/业务快速产品的能力,是生态化的共享基础。

Eco-Ops实践的关键在于构建创新型组织架构、赋能式技术工具和模型化体系方法,这也是Eco-Ops实践的三大支柱。IT界存在着说法:运维在价值链底端原因是运维做起来没有成就感,很难找到专业化的方向。对此,我们通过模型化体系方法、赋能式技术工具来解决运维成就感不足问题,创新型组织架构来设定人员定位,解决成长问题。

创新型组织架构是一个学习型、成长型的组织,采用激励的方式引导大家来创新;模型化体系方法将运维的大问题拆解成边界清晰、标准描述、有评价标准的小问题,组织里的任何一个人都可以拿到创新的方向;同时,赋能式技术工具保证成员的研究成果得快速被应用,并且获得良好的反馈。

生态化运维实践要点

其中,模型化体系方法是三大支柱的核心,我们称之为“绿洲”,指运维中以对象、活动、场景三维度构建的集成描述框架,寓意困境中的期望。我们希望以此来解决运维知识文档化难以落地的问题,将运维实践经验知识化。

建立绿洲(OASIS)模型需要三步:

· 活动标准化将运维领域各项工作进行分解识别运维活动,并对活动的要求基本步骤、规则接口进行抽象和标准化表述,即将运维已知方法论进行精简、统一描述,基于此构建原子化的对象无关的运维活动服务。

· 对象模型化在满足运维活动要求的基础上,按照奥卡姆剃刀原则,设计包含规则、属性、关系、指标、轨迹和标签的六要素对象模型,对象模型是特定对象运维管理的实例化,包含了对象整套的管理实践。模型是对传统CMDB的极大拓展,通过引入动态和高阶语义信息,实现运维对象的完整描述。

· 场景行业化运维场景是运维人员的实际工作界面,每个场景都是为了实现特定运维业务的流程、对象、活动的组合。不同行业、不同IT组织的特定管理流程和行业参数设置等都需要在场景中落地。

对象模型

通过绿洲提供的模型化表述,运维标准规范、实践经验都变成了数字化的共识,不仅为生态化运维的建立提供了方向,也降低了进入运维世界、认识运维问题的门槛。

在工具层面,建设银行在多年的运维体系建设经验基础上,吸收互联网技术栈的服务化、敏捷化思维,打造出“龙舟”平台为生态圈成员单位提供快捷高效的共享运维服务。龙舟平台既可以直接满足运维人员的使用需求,也能为运维生态圈中其他组织的个性化运维场景提供服务接口和二次开发能力。龙舟平台通过其独具的生态化产品设计和运营模式,使生态圈成员共享最佳实践成果。

龙舟运维平台架构图
任何体系的落地都离不开组织的保证,按活动、对象、场景进行划分的运维专业化组织架构“天梯”是eco-ops落地实践的关键要素之一,它是针对传统运维组织机构臃肿、尾大不掉、创新氛围不足的缺陷,在不改变大的组织架构下重新提升组织创新活力的一种内嵌式的人才能力发展模式,强调了内部与外部治理的协同,通过连接、开源、学习、创新、激励的理念打造生态化的治理模式,能够平衡组织的稳定性与灵活性。

03

Eco-Ops赋能数字化转型新价值

如果说业务是翱翔天际的战机群,Eco-ops是提供平台支撑的航母,运维方法论控制航向,技术工具做动力引擎,数据就是基础燃料,而AIOps、DevOps、SRE、低代码等就是能让动力更澎湃的催化剂。

Eco-Ops本质是运维模式,通过统一描述了运维业务,书同文、车同轨,试图解决运维能力复制和演进的问题,让经过检验的最佳实践的运维能力、经验复制和自我演进,快速、低成本构建运维体系,专注于数字化转型的业务战略。

Eco-Ops是后疫情时代的IT运维的一种考虑和选择,在组织无需具备全部技能和能力的情况下,借助生态群的公共服务能力,获取关键的技术、知识和能力,能为IT企业的数字化转型实践提供更好的动力和支撑。

生态化运维组织形式

基于Eco-Ops的业务场景实践

以往传统的运维支持业务场景的模式,成本比较高,所以会导致散点式、碎片化的情况;基于龙舟运维平台,现在通过Ops方法论让业务主动去寻找合适的技术。在体系引导下的技术应用才能回归理性,具有更广泛的推广价值——这也是我们的目标。

以实现智能事件处置为例,首先要进行场景分解,看事前、事中、事后要做什么。事前建模,进行对象模板维护、事件完备检查等;事中分为事件识别、根因定位、止损处置三个场景,每个场景又有细分,如止损处置包括止损推荐、止损实施的动作;事后有复盘验证。基于这些活动的标准和规则要求,我们抽象出它所对应的运维对象模型所需要的内容。比如,事件识别阶段有启动规则,处置阶段有处置规则。每个对象有哪些处置动作,每个处置动作花多长时间,处置时有没有业务影响,这些都属于Ops。

规则分析方面,每个运维对象有多少指标、每个指标之间的根因依赖关系都是重要的因素。将建行物理子系统看作一个应用,它在事件中涉及到属性、关系、指标、轨迹和标签。场景拆分好了,活动定义有了,对象模型也建好了,在这个基础上我们去寻找这些活动适合用哪一种算法模型来解决。这里会涉及到大量的算法,如时间序列分析、异常检测、关联分析、因果推理、推荐决策和自然语言处理类等。

面向业务场景的运维由单纯的创新型产品不能解决根本问题,本质上还是需要Eco-Ops(生态化运维)的思路进行拆解,将大问题变成小问题,一面保障安全、稳定,一面保障高效、敏捷,并在成本和收益间做出平衡,实现一个开放、共享、可持续发展的良性运维生态循环。

基于龙舟运维平台的强大支撑,可鼓励数据中心自有工具实现,运维工具花繁叶茂,各种各样专业化的运维工具在平台上轻松实现。通过“做平台,搭场景”,龙舟运维平台全面支持多租户,支持多云管理,支持异构环境,屏蔽底层差异,形成建行标准CCBAPI。租户可以共享运维平台能力,可以依托平台能力做二次开发,做自己的特色场景,做客户的定制需求,众创、共建、共享。

写在最后

作为中国建设银行生态化运维理念及龙舟运维平台重要参与者和合作伙伴,广通优云持续深研创新,与运维生态圈协同共建,与建设银行在Eco-Ops生态运维打造方面,保持长期共研合作及理念共创。

未来,广通优云期待继续携手中国建设银行,打造运维生态圈,推动数据中心从建设升级迈向生态演进,并以此赋能更多数据中心用户,合作共赢,共赴生态未来。

- THE END -

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部