文 / 东亚银行(中国)首席信息官 王悦
中央金融工作会议提出,金融要为经济社会发展提供高质量服务,做好“五篇大文章”,积极培育发展新质生产力。作为首批在内地注册成立的港资法人银行,东亚银行(中国)始终致力于为香港、内地及其他主要市场的客户提供全面的金融服务,随着业务数字化转型的加速推进,对系统的稳定性和可观测性提出了更为严苛的要求。在新形势下,东亚中国积极应对挑战,其运维管理模式正逐步从“IT运维”向“IT运营”转型,借助“泰逢一体化运营平台”的建设,以数据为基础、算法为支撑、场景为引导,实现了运维工作的全面改进和优化。
目前运维体系面临的困局
银行在运维领域有如下特点。一是基础架构多样性。包含网络、安全、主机、存储等多种硬件设备和操作系统、数据库、中间件等软件设备,以及传统架构、微服务架构、云化兼有的架构等。二是运维工具的多样性。银行在不同时期引入了多种运维工具系统或平台,如基于多个基础架构类型监控系统、网络管理、CMDB、ITSM等,这些工具系统之间的协同性不高,导致运维人员在完成某项运维工作时需要在不同平台之间切换,工作效率低且错误率高。三是业务连续性要求高。业务故障出现时,对客影响较大,故障应急定位难、处置效率低,需要根据完善的运维数据和知识积累,快速定位解决问题。目前,多数银行已经建立起较为完善的一体化运维体系,但在探索到智能运维阶段、精细化管理上普遍面临着以下问题。
首先,数据采集标准及质量。银行内部系统不同制造商和平台之间的兼容性和集成性较差,导致数据分散、数据格式多样、数据采集和管理难度大。智能运维依赖于高质量的数据,用户获取运维数据质量参差不齐,且分析手段单一,难以深入挖掘数据价值的问题。在此过程中,需要建立统一的数据标准和规范,采用如数据湖、数据仓库等技术手段,以提高数据采集的效率和准确性。
其次,数据处理能力需加强。随着业务规模的扩大和新技术的引入,数据处理量激增,对数据处理能力提出了更高的要求。传统的告警管理方式依赖固定阈值,容易导致告警风暴或漏报。目前在数据处理上采用了基于动态实时数据结合历史数据的对比方式进行告警,能够更智能地分析数据发展趋势,在数据处理能力的提升,如采用大数据处理技术和人工智能算法,可以实现对海量数据的快速处理和分析。
再次,基于应用场景化程度低。共性类的运维痛点问题缺乏统一统筹应用效果较差,尤其是分布式架构、微服务等技术的应用加剧了痛点,故障定位难、解决难,系统对突发事件的处置效率降低等,在落地过程中,一些个性化的场景得不到快速响应,影响对运营的支撑能力。
最后,成本和投资回报无法直观体现。运维构建和提升必须具有较大的初始投资和可持续运营成本,尤其是智能化运维依赖的前期积累投入会更大,除了保证系统稳定性以外,无法以业务直接经济价值来衡量。往往需要通过运行数据进行监控和分析,以减少人力成本、优化资源配置、降低能耗等措施来评估系统的经济价值。
统筹规划,完善运维体系
针对目前存在的问题,经过分析和调研,业内有一些做法有较高的参考价值。在运维数据治理方面,国内的大行已加强对数据标准化和质量的控制,但在运维数据落标与整合、运维模型方面仍有待进一步提升;在分析领域,基于图谱的运维大数据分析应用正逐步兴起,但其整体应用水平仍处于初级阶段;在运维理念方面,SRE理念已深入人心,并在国内银行业中得到一定程度的推广,在实操层面的由于流程组织的原因,标准化和规范化仍需要进一步加强。基于借鉴行业内优秀实践,东亚银行根据自身的实际情况,在有限投入的情况下,以自助式服务为业务导向,通过“数据驱动”和“智能化AI”有机结合,以满足业务的多样化场景应用需求和业务流程简化,打造了“小而美”的一体化运维体系。主要开展的工作如下。
首先,运维数据治理及落标。除了在技术上引入了大数据和数据仓库外,将数据治理从业务侧延伸到了运维侧,开展了运维数据的“业务指标、资源指标、日志、告警、配置资产、知识”六大数据主题的落标和治理工作。结合生产运维领域的各类需求,构建了运行、运维、运营指标体系,制定了300多个运行指标、39个运维指标、20个运营指标便于后续落地。其次,以业务价值为导向,通过分析运维数据和知识库积累,识别影响业务的关键指标,并以此为依据设定运维目标。以实现业务端到端的统一管理,量化运维工作成果与价值,为持续优化运维工作提供数据支持。再次,垂直大模型的实践。通过知识库+大模型的RAG路线的智能化分析,以告警聚合、根因定位等故障辅助分析为场景,通过对历史工单及知识库数据的样本训练,尝试了智能问答机器人为入口,实现了智能推荐及事件分析。最后,多场景的自助服务交付。将业务功能进行原子化拆分,形成各种基础的服务单元,根据用户需求动态组合这些服务单元,以满足不同场景下的业务需求,实现高度灵活的业务定制,提升整体效能。
健全平台建设,提升运维价值
在统筹规划的思路和基础上,通过健全运维平台提升银行业务稳定性、安全性以及效率,东亚银行开展了泰逢一体化运营平台的建设,充分利用现有运维工具的能力,通过API及总线技术进行集成,构建统一、协调运作的一体化IT运营管理平台,打造智能化、精细化的科技运营体系。主要特点如下。
在推动场景驱动的运维服务优化中,以构建“运维统一服务目录”为核心,将服务进行原子化拆分,并采用低代码开发模式,提供基于服务的运维操作编排能力、标准化的操作组件库,固化运维操作场景,有效降低操作风险,并建立统一的API网关,以适应多样化的业务场景并简化流程。
在平台实施层面,完成了统一配置管理(CMDB)的CI项模型重构,从应用视角整合了软硬件资源信息以及资源间的关联关系,为平台监控与自动化管理筑牢了基础,集合图数据的使用,优化了对复杂关系的查询和分析性能,有效支持业务中的实体关系管理需求。统一监控达成了对基础硬件、基础软件、应用告警以及日志的统一监控,构建起集中告警管理机制,融合不同资源所产生的各类运行告警,进行统一处理和集中展示,并结合CMDB展开告警关联分析,提升快速定位和评估影响范围的能力。借助自动化运维平台与统一流程管理平台,通过将管理人员、技术以及流程进行有机结合,把常用运维操作脚本服务化和标准化,实现了“原子化、可配置、低代码、可复用”的自动化运维能力,从而构建起满足整体运维业务需求的IT管理体系,覆盖了数据中心的各个运维场景。
在运维数据处理方面,通过运维数据治理和标准化,推进运维数据平台的建设,采用大数据平台实时流计算技术、全面采集聚合监控数据、日志数据、告警数据、配置数据、工单数据,构建数据智能分析引擎,将运维视角从单个应用扩展至对客业务场景,通过端到端的基础、应用到用户的全景可观测,实现复杂场景下的全局智能诊断和根因定位。通过自动化服务目录,将各类应急预案自动化,以缩短故障处理时间。
在大模型实践方面,以场景为立足点,借助外部合作伙伴的运维数据训练的运维垂直大模型。基于行内问题、事件、桌面、告警等知识库知识展开二次训练,运用高级检索增强生成技术,降低对算力的依赖,减轻大模型的幻觉现象,增强生产内容的可追溯性。在具体场景中,结合向量数据库,于数据预处理阶段对文本进行切块和向量化处理,将文本块索引至向量数据库。当事件出现时,把问题向量化,查找相似度与相关度最高的文本块索引并进行排序,结合相关度和相似度最高的知识,通过大型模型进行文本摘要并输出结果,提高事件响应后的历史知识匹配效率。构建了智能问答机器人,达成基于检索的问答意图识别及知识推荐,提供运维知识和数据的便捷消费能力,用于问答、推荐和辅助,为运维工作带来了切实有效的解决方案。
展望未来,探索数智化运维场景
通过一体化运维体系和平台的搭建,基于运维转型和智能运维的探索研究,东亚银行运维质量和价值都有很大提升。
接下来,东亚银行将聚焦“数据+AI”以下几个方面的工作。一是健全运维数据分析平台的建设和数据的持续接入,结合制定的运维数据的标准,实现数据的逐步落标,并结合业务视角、运营视角,结合平台提供的数据服务、AI的分析能力持续增加场景化服务能力,补足运维能力短板,全面提升系统运维能力。持续为业务、为运维人员、为管理过程全面赋能。二是加强运维模型的场景化服务能力,涵盖了从基础的系统监控到高级的故障预测与预防,以及风险防控多个方面。如在风险防控领域,通过业务类和系统类的指标实时监测与分析,并结合配置、工单等数据,尤其是对于投产变更场景,比对变更前后各项监控指标的态势变化,从不同的维度和视角探测变更风险,并提前向数据中心运维人员发出风险预警提示,预防重大事故发生。三是借助统一门户构建全面集中的统一运维视图。精心打造的统一门户,能够有力规避工具割裂化的问题。通过对各类运维工具的整合,达成各个工具间的无缝流转和资源的充分共享。结合运维视图的构建,对系统关联信息、资源拓扑信息、运维活动信息、性能指标信息进行全景式汇聚,并采用诸如拓扑图、关联图、时间线等创新型展示形式,为决策提供辅助支持。
(此文刊发于《金融电子化》2024年11月下半月刊)
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有