中信银行班孝明:打造分布式核心系统运维体系 全面实现平台化运维

中信银行班孝明:打造分布式核心系统运维体系 全面实现平台化运维
2023年11月09日 14:08 双态IT论坛

2023年10月13日-15日,以“云原生和大模型革新IT生产力”“金融信息技术应用创新服务保障”为主题的2023第六届双态IT乌镇用户大会成功举办。本次会议由ITSS分会、证券基金行业信息技术应用创新联盟指导,ITSS数据中心运营管理组(DCMG)、双态IT论坛、智能运维国标工作组主办,ITSS媒体组、AI范儿协办,共有来自金融、央国企等行业的500余人到场出席。中信银行科技运营中心副总经理班孝明带来《中信银行分布式核心系统运维体系建设实践》主题演讲。

(中信银行科技运营中心副总经理班孝明)

以下为演讲实录:

2020年5月3日,中信银行基于X86服务器的分布式核心系统成功投产,系统采用和中兴通讯联合研发的分布式数据库GoldenDB,在股份制银行中率先完成核心系统分布式转型,实现自主可控。时至今日,系统已安全运行超过3年,圆满通过双十一、年终决算等重要业务时点考验,远远超出预期。

在信息技术应用创新改造方面,中信银行制定了三年核心系统信息技术应用创新改造规划。2021年作为试点阶段,当年年底作为分布式核心服务器,替代率是16%;2022年持续加大了信息技术应用创新改造的改造进度,其中合肥异地灾备服务器都采用信创的设备,北京同城两中心应用服务器做了部分替换,当年达到50%的替代目标。同时也获得了人行金融信创生态实验室2022年度信创优秀的解决方案;2023年是中信银行核心分布式系统信息技术应用创新改造改造的收关之年,截至目前,所有的应用服务器全部使用信创服务器替换,数据库服务器替换达75%,预计12月中旬全部完成替换。

说到运维,三分建设,七分运维,分布式系统更是如此。分布式核心系统面临的关键运维挑战主要是四方面。一是节点多且关联复杂。分布式核心的逻辑节点数量多、节点关系复杂;二是单节点、稳定性弱。X86服务器单机稳定性远低于小型机、单机故障率增加;三是部署结构复杂。其中包含应用多活集群、Redis缓存集群、分布式数据库和智能DNS;四是对开发、运维技能的新要求。

运维面临的挑战不是单点的,而是体系性的问题。我们建立核心分布式系统的体系时的基本理念和思路是:先从体系入手,以平台化为抓手,系统运维达到100%的平台化。简单来讲就是不允许任何管理员登陆我们的核心系统,全部靠运维支撑工具解决问题。针对目前面临的运维挑战,中信银行首创了分布式核心系统运维体系。

首先是团队,人是解决一切问题的基础。团队包括参与建设的一部分人和原有运营的人,还有一些补充的人员。在这个基础上,我行根据现有的制度要求、流程变革,进行适配我们分布式核心特点和运维管理的相关要求的尝试。

其次是监、管、控方面,我们主要是从制度和流程、监控、变更、应急四方面展开。一是监控,我们采用360°无死角全覆盖监控体系,做到全面、细致、及时;二是巡检,采用创新型预防式巡检,即“运维支撑平台+巡检体系完善+巡检内容全覆盖+巡检方式自动化”,巡检范围涵盖系统、网络、应用服务、分布式数据库和日志;三是变更,云网联动、灰度发布的变更。变更依托运维支撑平台有以下特点:变更步骤全标准化、部署方式全自动化、高仿真模拟全覆盖、回退预案稳妥完善、变更权限精准管控、先备后主/按机房分批实施等;四是应急处置,采用全覆盖、快恢复的应急方案。我们在应急处置方面制订了两个目标,一是应急预案要全面,即应急预案要覆盖所有的节点,所有故障类型。其中节点包括了应用节点、REDIS数据库、网络等;二是处置手段要全面,每个节点都要有服务器重启、节点隔离、还有主备切换的手段;此外是快速,我们依托运维支撑平台的自动化能力,主要故障场景全覆盖,每个应急操作均可在分钟级内完成,故障自愈率达80%,应急自动化率达100%。

在运维团队建设方面,我们的目标是打造具备分布式核心运维能力、作战经验丰富的专业化运维团队。同时,由于分布式核心系统我们采用平台化运维,平台化运维需要具备熟练应用运维工具分析、解决问题的能力。此外,还要践行SRE理念,具备开发能力,能够解决日常工作中的问题。具备上述能力的方式就是实战加培训,经过建设初期的仿真实战和后期的生产运维,分布式核心团队实现了转型,具备了我们所需要的核心系统的保障能力。

分布式核心系统运维体系包括标准化的前台服务、全方位的中台支撑和专业化的后台保证,通过构建前中后三层联动的平台化运维管理体系,有效保证了我们系统安全有效的运行。

分布式核心系统运行三年来面临个别联机交易响应缓慢、个别批处理程序运行时间长、批处理与联机交易互相影响、数据分布不均衡、数据库节点访问不均衡等问题。这些问题都是我们面临的严峻挑战。其次,开发和运维如何融合,如何快速的解决问题,这是我们所面临的体系性的问题,无论是从科技运行角度还是开发中心角度来讲都要高度重视。坚持把这些问题消灭在萌芽的状态,使分布式核心系统关键指标处于正常范围,有效地保障了我行核心系统的安全稳定运行。

总体来说,中信银行分布式核心系统成功投产并稳定运行,打造了分布式运维体系,全面实现平台化运维。在技术方面,完成了从集中式到分布式、从封闭到开放、从传统到开源的变革;在管理方面,完成了SRE+敏捷自驱的理念转型、分布式核心运维的能力转型以及高强度“准实战”的模式转型。

双态IT论坛成员单位

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部