在数字化浪潮与人工智能迅猛发展的当下,广发证券加速推进数字化转型,技术架构持续升级。然而,这也带来了系统复杂度攀升、数据量急剧增长以及网络安全威胁等问题,使得系统稳定性保障面临巨大挑战。尤其在证券行业,交易系统哪怕出现秒级故障,都可能导致客户权益受损等严重后果。因此,为保障系统稳定运行、维护客户权益,广发证券着手推动智能化运维模式,以应对数字化转型过程中系统稳定性保障方面的困局。大模型的出现,凭借其强大的语言理解和数据处理能力,为智能运维带来了革新的可能,在运维过程中使用AI辅助工作已成为运维员工的一项基本要求。
基于此,广发证券提出了 “人机协同” 的智能化运维模式,即让智能化机器人与公司经验丰富的员工组成稳定性保障工作协作模式。经过近几年的建设,广发证券已组建起一支由几十位员工与几千名机器人共同协作的智能化运维团队。随着大模型技术的快速发展,广发证券进一步借助大模型技术更好地沉淀专家经验、连接具备特定技能的智能体,以实现更为高效的人机协同 。
构建“8+4”的智能运维体系
大模型凭借强大的语言理解、数据处理与模式识别能力,为智能运维带来革新。它能深度整合分析海量多源异构数据,挖掘潜在关联;支持自然语言交互,运维人员通过简单指令就能让系统执行复杂任务,大幅提升效率。同时,大模型还具备知识沉淀、日志解析、脚本生成、文档创作及类比推理等能力,全方位赋能运维工作,推动运维向智能化、高效化迈进。广发证券的智能运维模式充分利用了大模型技术上的优势,制定了总体的指导思路:聚焦稳定性保障的价值主张,打造智能化的人机协同运维体系,通过智能技术与专家经验沉淀,构建一系列具备专业技能的机器人,辅助运维专家感知、决策与执行。
1. 以价值为导向,推动做正确的事
智能运维体系的构建需紧紧围绕价值创造展开,其核心价值是提升系统稳定性,通过智能化的系统监控,及时发现并解决潜在故障隐患,确保证券公司信息系统能够7×24小时稳定运行,为业务的连续性提供坚实保障。为了确保复杂交易系统的稳定性,广发证券在推进智能运维时重点围绕6大核心能力模型(见图1)的智能化建设“故障可恢复、性能可扩展、变更可管控、业务可监控、问题可观测、部署可感知”。
2. 构建“8+4”的智能运维平台体系
为了实现上述运维价值,广发证券构建了“8+4”智能运维体系,通过深度融合8大核心场景与4大能力中心,为运维智能化转型注入强劲动能。在场景维度,公司聚焦运维核心痛点,充分发挥大模型等前沿智能技术优势,对监控告警、变更管控、故障处置等八大关键运维场景进行系统性重构与优化;在能力建设层面,通过将智能化实践成果持续沉淀,全力打造机器人中心、“监管控析”智能体中心、运维算法中心与专家知识中心四大能力基座。该体系以场景驱动创新、以能力夯实根基,实现了运维场景效能提升与能力中台化建设的双向赋能,为智能运维发展提供了新范式。
智能化赋能系统运行稳定性保障实践
1. 智能化赋能变更管控场景
变更作为影响系统稳定性的关键因素,一直是证券公司运维管理的重中之重。尽管行业内普遍建立了涵盖流程管控、CAB评审、架构评审、自动化发布、变更后验证与集结重保等在内的一系列变更管控措施,但变更引发的系统故障仍时有发生,给业务的稳定运行带来挑战。为有效应对这一难题,广发证券打造了智能化变更管控场景(见图3)。该场景聚焦变更影响分析、场景工具箱、变更防御、事件总线、因子感知及辅助定位等核心能力,旨在全方位降低变更风险,为系统的稳定运行筑牢坚实防线。
在大模型技术的深度赋能下,变更管控场景实现了全面升级。在变更脚本编写环节,平台充分发挥大模型的优势,支持辅助生成高质量脚本,并从安全性和有效性两个关键维度进行智能评估与优化,降低了人为操作可能带来的风险。在变更因子比对过程中,借助大模型能够对环境配置、配置文件等数据进行差异分析,突破了传统配置项需要拆解比对的繁琐流程,提升了分析效率。当故障后,通过建立变更分析机器人Agent智能体(见图4),支持辅助定位引发故障的变更行为,以缩短故障定位时间。
2. 智能化赋能故障应急场景
故障应急能力是衡量运维团队专业水准的核心标尺。在证券行业分秒必争的业务环境下,应急响应速度与处置精准度,直接关乎客户服务质量与公司市场声誉。为应对日益复杂的信息系统故障挑战,广发证券搭建了在线IT运营指挥中心(见图5),其肩负着保障IT运行安全、赋能业务稳定运营的双重使命,以实现全面感知、精准决策、高效协同、有效指挥为目标。
随着系统架构日趋复杂,跨团队协作、实时响应、高紧迫性的应急管理场景面临前所未有的压力。为此,广发证券深度引入大模型技术,全面升级应急体系。故障突发时,机器人自动组建应急协作群,精准召集相关人员,同时大模型快速整合关联变更记录、应急预案、告警数据、系统健康报告及历史相似案例,一键推送至不同团队,确保跨团队成员第一时间掌握关键信息。在故障处置阶段,“日志分析机器人”(见图6)智能体支持应急人员通过自然语言交互,快速获取专业建议,实现高效协同。“日志分析机器人”智能体凭借大模型强大的语义理解能力,能够挖掘异常日志上下文信息,辅助运维人员快速定位故障根源,大幅提升应急处置效率 。
3. 智能化赋能监控管理场景
监控作为异常发现的前沿哨所,其响应效率直接决定应急处置的时效性。然而传统监控手段存在三大痛点:覆盖范围局限,难以触及系统深层隐患;配置依赖专家经验,灵活性不足;面对未知异常时,告警识别与处理效率不高。广发证券以智能化的“日志模式+指标异常检测+ 大模型+多模态”技术为突破口,实现从被动响应到主动防御的跨越。在日志分析领域,智能日志模式识别系统通过机器学习算法,深度挖掘业务系统日志中的潜在风险,多次在客户反馈前成功预警异常,将被动运维转化为主动防御。指标监控层面,针对数据库性能、操作系统负载、业务黄金指标等关键场景,结合异常检测构建动态阈值模型,实时捕捉系统细微变化,确保风险早发现、早干预。
大模型技术的引入更是为监控体系注入 “智慧大脑”。在告警全生命周期管理中,大模型不仅能辅助分析告警信息,还能在告警复盘阶段,通过“告警分析助手机器人”总结经验教训,优化监控策略(见图7)。同时,基于多模态模型,应用“运维图像识别机器人”(见图8)可对Grafana、Zabbix等监控图像进行智能解析,突破传统文本监控局限,实现可视化数据的深度挖掘。
4. 智能化赋能事前风险挖掘场景
风险挖掘是保障系统稳定运行的关键防线。广发证券以三线SRE机制为基石,构建起“挖掘-识别-触达-跟进”的全流程风险管控闭环,将风险防范工作前置,实现从被动应对到主动防御的转变。在风险挖掘环节,公司深度运用AI算法,针对14个场景开展精细化检测(见图9)。从交易系统性能容量评估,到业务黄金指标、数据库性能及容量评估等场景,持续扫描系统运行状态,提前捕捉潜在风险信号。一旦发现异常,系统将立即触发预警机制,同步生成风险评估报告与防范策略,运维团队可据此迅速响应,将风险化解于萌芽阶段,为业务连续性提供坚实保障。
5. 智能化辅助构建机器人中心
近两年,广发证券已实现将运维工作全面融入数字化场景,依托平台服务化能力,实现运维流程从线下到线上、从人工操作到自动化处理的跨越式升级。在落地数字化场景后,公司引入ChatOps技术,构建起事件驱动的智能运维体系,让机器人主动识别工作事项,并精准推送至相关人员,大幅提升运维响应效率。经过持续深耕与实践,ChatOps在公司内部已实现广泛应用,目前有涵盖SRE员工、系统级、团队级、横向流程经理、专家知识库、IT服务台,以及业务运营岗等岗位打造的各种机器人(见图10)。目前,40余个团队深度参与其中,1000余个ChatOps机器人与1900余个机器协同群,共同构筑起“人机高效协作”的智能运维网络。每一个机器人都是智能运维的“尖兵”,它们与运维人员紧密配合,承担日常巡检、任务分发、告警推送等工作,让运维人员得以聚焦复杂问题与创新优化。当前,我们正全力推动大模型与ChatOps机器人的深度融合。通过赋予机器人强大的思考、推理能力,使其不仅能执行常规任务,更能主动分析问题、预判风险、提出解决方案,持续刷新智能运维的行业标准,为公司数字化转型注入更强动力。
6. 智能化辅助构建专家知识中心
SRE专家积累的运维经验与知识,是企业保障系统稳定运行的核心资产。然而在过去,受限于技术条件,这些宝贵知识难以高效转化为实际生产力,存在知识沉淀难、复用率低等痛点。广发证券以RAG技术为核心突破口,自主研发了一套高效的知识管理场景工具(见图11)。该平台具备“小时级”的时间内完成“创建-上架-应用”,SRE专家只需简单配置,即打造属于自己的知识助手机器人,快速将个人经验、技术方案等知识沉淀起来,大幅降低知识沉淀门槛。同时,平台支持将专家知识库与运维机器人深度关联,赋予机器人“专家智慧”。在日常运维工作中,这些机器人能够凭借专家知识储备,自动处理重复性、琐碎性任务,如基础故障诊断、常规问题解答等,使运维人员得以从繁杂事务中解放,专注于复杂问题攻坚与技术创新。这种创新模式不仅实现了专家知识的高效复用,更推动智能运维向专业化、智能化方向迈出坚实一步。
7. 智能化辅助构建“监管控析”能力中心
历经多年深耕,广发证券的运维平台与人的协作走过了四个阶段。第一阶段是搭建起较完备的“监管控析”运维平台能力体系阶段,实现了人做事找具体工具的协同模式。第二阶段是场景化运维阶段,实现用数字化场景重塑原来线下的工作场景,即将多种不同运维平台能力进行数字化融合,人在数字化场景工作的协同模式。第三阶段是ChatOps运维阶段,实现以事件驱动,由基于规则的机器人与员工协作的模式。第四阶段正在推进中的智能机器人阶段,即将运维平台能力迁移整合为一系列具备专业领域能力的Agent智能体(见图12),这些智能体赋能现有的ChatOps、RPA等机器人。在复杂多变的运维环境中,智能体将凭借不断进化的感知与分析能力,识别系统异常,并高效执行运维任务,真正实现从系统状态监控、风险预警,到故障处置、优化调控的全流程智能化管理,为智能运维发展提供了创新范本 。
展 望
在运维领域,大模型的应用将为智能运维带来更为广阔的发展空间。随着大模型技术的不断成熟与优化,其在广发证券智能运维中的应用深度与广度将进一步拓展。未来,大模型有望实现对运维数据的更深度理解与分析,进一步提升运维机器人在故障预测的准确性、风险管控的效率以及运维决策的科学性等能力。通过智能化技术,打造一系列具备智能化的机器人,进一步构建起更加智能、高效的“智能化人机协同”运维模型,推动智能运维向更高水平迈进,为系统稳定性提供更为强大的技术保障。


财经自媒体联盟

4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有