《中国智能运维实践年度报告(2022-2023)》之实践案例分享-广发银行

《中国智能运维实践年度报告(2022-2023)》之实践案例分享-广发银行
2023年12月26日 09:43 双态IT论坛

Hi 朋友,上期分享了鼎茂科技的实践案例,下面让我们来看一看本期内容“广发银行之运维配置数据质量提升案例”

我行运维配置库建设历程

我行运维配置库集中存储与管理数据中心运维对象及关系数据,与运维工具及运维流程紧密关联,是智能运维体系的数据核心。我行配置库建设始于2015年,随着运维体系不断迭代,对配置库的服务能力和配置数据质量要求越来越高,我行配置库的建设共经历了三个阶段:

阶段一:平台建设,被动数据治理。2015年配置库平台首次投产,初步具备数据建模、数据采集能力、数据服务能力,建立应用监控所需数据保鲜机制。同时,开展被动式的数据治理解决用户反馈的数据问题。

阶段二:功能优化,探索数据治理体系。2018年完成配置库平台优化,引入图数据库,重构平台服务能力,实现数据灵活建模,完善OS以上CI自发现能力;同时,探索配置数据质量可持续改进的治理体系,初步实现运维流程+自发现相结合的数据管控手段。

阶段三:全面数据治理。2021年以来,进一步完善配置数据治理体系,制定优先级逐个CI开展数据治理,建立配置数据质量量化评分模型,形成了较为成熟的配置数据质量持续提升的机制。

经过多年建设,配置数据与运维工具融合越来越深入,随着运维工具自动化、智能化能力的逐步提高,配置数据质量问题对运维工具建设、应用推广的制约越来越明显,配置数据的消费需求与数据质量的矛盾显得尤为突出。为此,2021年初,我行制定了运维配置数据质量提升方案,持续提升并维持运维数据质量。

我行配置数据质量提升方案

我行配置数据质量提升以组织保障、流程管控和平台支撑为基础,建立“增量管控” “全量净化” “消费促活”的运营大闭环和“识别问题” “制定方案” “解决问题”的治理小闭环,建立科学有效的质量保障机制,持续保障配置数据可信可用。

定义IT架构全景标准化模型

为保障配置数据质量,我行建立了配置数据治理的组织保障,建立工作机制明确配置数据治理的组织架构,促成在部门内形成使用数据、完善数据的工作氛围。

组织架构

1)决策层:中心领导对配置数据质量提升相关事项进行决策,调配各类资源保障配置库项目建设、数据治理等工作有序展开。

2)管理层:配置经理负责我行配置库配置管理工作,制定配置管理制度、规范、流程,组织各方开展工作,定期汇报;技术管理方由各处室的技术骨干组成,负责各配置数据的技术管理工作,制定技术管理要求和自发现方案。

3)执行层:维护责任人负责数据维护并保障数据准确;消费方负责落实消费管理要求,在使用过程中提出数据需求、反馈数据问题。

治理文化建设

1)加大优秀应用案例和管理要求宣贯:在内部各宣传渠道宣传配置数据优秀应用案例的宣贯,树立标杆,吸引其消费方使用;进行配置数据规范标准宣贯普及,让相关方及时了解相关管理要求。

2)积极汇报争取更多支持:以周报、月报等形式在中心例会、专项汇报上进行配置数据治理进度的汇报,让决策层及时更新配置数据治理成效,争取更多支持。

3)运用激励手段调动积极性:对配置数据质量贡献突出者通过中心邮件、运营宣传材料等进行表扬,为重大专项治理工作的贡献突出者申请现金奖励等激励方式,调动各相关方参与配置数据治理的积极性与主动性,提升工作成就感,营造共同参与、合作共建的工作氛围。

流程管控

为保障配置数据治理工作有序推进,加强配置数据治理过程控制,我行制定了配置需求管控、存量配置数据治理工作、增量配置数据入库控制等流程。

配置需求管控流程,明确数据入库准入门槛,开展需求整合,以满足智能运维发展的全局要求。存量配置数据治理工作流程按CI制定数据质量基准,明确各CI完成治理的标准,确保治理成果可评估,质量可量化。增量配置数据入库控制流程,定义配置数据质量度量规则,建立事中检核、事后核验相结合的手段,持续保持数据高质量稳定。定期开展数据治理相关流程的回顾,持续优化改进,不断调整适应运维自动化、智能化发展需求。

平台支撑

平台是配置数据存储、管理的物质载体,是健全配置数据质量管控、配置数据发挥价值的重要支撑。

通过不断完善平台的CI数据采集功能,及时感知配置信息变化,提高新增配置数据入库和存量配置数据保鲜能力,保障配置数据准确性。建设配置数据统一规则引擎,将配置数据质量标准转化为质量检核规则,入库时开展质量检查,不满足质量要求的数据拒绝入库,建立配置数据质量“护城河”。建设配置数据属性级消费授权管理能力,建立配置数据属性级“来源-消费”血缘关系,进一步细化配置数据安全管控手段,推动配置数据消费记录可追溯、可分析。建立配置数据质量问题管理闭环,实现问题识别、问题跟进、解决结果确认等全链条线上管理,提升治理工作效率。建立配置数据质量看板,将配置数据质量评分及变化趋势、消费情况、各CI责任人的质量贡献等进行可视化,提升配置数据治理的数字化能力。

数据治理双闭环

我行配置数据质量提升工作特点

在组织有效保障、流程管控高效运转及平台有力支撑下,我行构建了配置数据生命周期运营大闭环和数据质量问题生命周期治理小闭环。建立了配置数据质量量化评分模型和数据治理运营机制,确保配置数据治理工作有序运转、配置数据治理成果可靠。

运营大闭环

我行配置库已入库数据量较大,待入库需求多,数据源头的质量参差不齐,为了能够满足运维工具使用数据的需要,我们建立了包含“增量管控” “全量净化” “消费促活”三个环节的配置数据运营闭环。在开展存量数据治理的同时,加强源头管控,减少源头引入新的质量问题;加强配置数据的应用管理,引导、鼓励用户在使用过程中反馈数据问题,以便不断优化校验规则、核验手段、保鲜方法等。

1)增量管控

加强配置数据源头管理,制定配置数据采集规范,明确配置数据质量要求。通过采集方案评审、保鲜机制评审、数据入库属性级检查及异常数据原因追溯等方式严格管控自发现、流程、第三方数据源等产生的增量数据,按照“谁污染谁治理”的原则,推动源头整治,严控“准入”关。

2)全量净化

对配置库存量数据开展治理工作,在记录级和属性级两个维度,从数据质量评分是否达到质量需求、数据保鲜机制是否完备等角度制定各CI完成治理“准出”标准。定期开展存量数据的质量评估,对质量异常波动组织开展根因分析、推动长效机制整改落地,确保数据质量长期维持在可信、可用水平。

3)消费促活

组织梳理运维流程、工具、数据分析的配置数据消费场景,按属性级进行消费授权管理,建立配置数据消费台账。建立从消费场景出发的问题反馈跟踪机制,促使数据从“消费”-“CMDB”-“源头”反向推动增量管控、全量净化持续优化。

治理小闭环

数据质量问题管理是配置数据治理日常工作的重要组成,为了规范数据治理工作,需加强数据质量问题全生命周期闭环管理,做到问题不遗漏、个个有跟进。

1)识别问题

配置数据质量问题有多个来源,一是入库的事中检核时发现的异常数据,二是已入库数据通过多源核对、制定规则进行记录级和属性级检验发现的质量问题;三是通过质量分评估发现的异常问题;四是用户直接反馈的问题。建立问题台账进行问题跟踪管理。

2)分析问题

对问题开展根因定位并制定解决方案,除批量修复存量数据质量问题外,解决方案将重点放在从源头上杜绝“边污染边治理”,从调整优化源头的数据标准、完善配置数据保鲜手段、完善数据入库检核规则等几个方面提升质量。

3)解决问题

协调关联方推动解决方案落地,优化事后校验规则、多源对账手段和质量评分模型,通过事后校验、质量评估等技术手段验证数据解决成果,确保数据问题得到修复,并持续优化完善数据质量问题的主动识别的能力。

配置数据评价质量体系

怎样评价运维数据质量对于配置数据运营闭环和治理闭环都显得尤为重要,我行配置数据治理过程中,逐步摸索出一套配置数据质量评分模型,建立质量基准,定期对配置数据开展质量评估,及时感知数据质量波动和数据质量趋势,明确标明数据质量问题,实现数据质量数字化、智能化管理。

我行配置数据质量评价体系由配置数据质量评分模型和配置数据治理运营两部分组成。配置数据质量评分模型从CI类或CI记录的核验方法、保鲜方法等方面探索配置数据质量的客观评价。配置数据治理运营是根据质量评分判断治理后CI类及CI记录的数据质量是否满足准出标准,以及对已完成治理的CI类及CI记录进行定期质量评价,跟踪其质量变化情况。

1)配置数据质量评分模型

我行配置数据质量评分包括理论评分和实际评分两部分。理论评分假设CI类及CI记录在理想情况下未发生数据质量问题,是受限于核验方法及保鲜方法能达到的质量最高水平。实际评分则是在理论评分基础上,将数据质量问题作为评价维度,得出CI类及CI记录的实际评分。接下来分别介绍CI记录及CI类质量评分模型。

CI记录评分

CI记录评分由记录级准确性、属性级准确性共同决定,设计了记录准确率和属性准确率两个考察指标,,,。CI记录评分公式为:CI记录评分=记录准确率*属性准确率*100

a)记录准确率考察的是记录、记录更新情况两个方面,计算方法为:

记录准确率=记录可信度*记录更新可信度*记录核对结果

记录可信度表示的是不同的核验方法及CI记录保鲜方法判断记录真实可信程度,如果通过与第三方进行多源核对,第三方与配置库均存在该记录,该记录存在的可信程度高(可信度=1);如果没有第三方多源核对,配置库也可以按经验制定规则以及结合CI记录保鲜方法判断该记录是否真实存在,此情况下判断结果的可信程度较高(可信度=0.8)等;

记录更新可信度表示的是根据CI记录不同保鲜方法以及数据更新间隔,判断记录更新结果的可信程度,如自发现数据需两周内更新,若实际更新时间间隔大于两周,更新可信度将按周进行递减20%,直至为0;

记录核对结果指的是通过核对方法及CI记录保鲜方法得出CI记录是否真实存在,存在则为1,否则为0。

b)属性准确率是CI记录中各属性值准确情况,属性值的准确性受属性核验方法、属性保鲜方法等影响,针对不同的核验方法和保鲜手段属性值是否准确设置了不同的可信度ωi该核验及保鲜方法下的属性数量为Mi通过核对属性数量为mi

属性准确率为CI记录中各属性核对结果的加权平均,即

注:N为该CI记录属性的数量=,理论评分由可信度决定。

CI记录理论评分(P)是CI记录核对时记录及属性均未发现问题时质量最高分,即记录核对结果=1,属性核对结果miMi

CI记录实际评分(p)是CI记录核对时记录及各属性可信度与核对结果的乘积

CI类评分

CI类评分受该CI类下CI记录覆盖情况、CI记录质量评分平均情况共同影响,可以认为CI记录覆盖及CI记录质量评分平均情况重要性一样:

CI类评分=0.5*(CI类覆盖评分+CI记录平均评分)

CI类覆盖评分考察的是CI记录是否覆盖全面、覆盖准确。

CI类覆盖评分=覆盖可信度*覆盖率*准确率*100

覆盖可信度是判断CI覆盖率使用的核对方法的可信程度,如果通过第三方多源进行覆盖情况的精确核对,则覆盖全面及准确的判断结果可信程度高(可信度=1);如果第三方多源只能进行补充核对,则判断结果可信程度较高(可信度=0.8);如果没有第三方多源进行核对,只能以配置库为准,则判断结果可信程度一般(可信度=0.6)。

覆盖率表示的是配置库CI记录覆盖程度。

覆盖率=配置库真实存在的CI记录数据量/该CI类全量数据量

准确率表示的是CI记录覆盖准确情况。

准确率=配置库真实存在的CI记录数据量/配置库该CI类全量数据量

由CI类覆盖评分公式可见:

CI类理论评分(Q)是CI类覆盖及质量核对时均未发现问题时质量最高分,即覆盖率=1,准确率=1,CI记录平均评分=P,理论评分同样由可信度决定。

Q=0.5*(CI类覆盖评分+CI记录平均评分)

=0.5*(覆盖可信度+P)

CI类理论评分(q)是CI类核对时覆盖可信度与覆盖核对结果(覆盖率、准确率)的乘积与CI记录平均评分(即p)的平均值。

注:N为行内该CI类下所有CI记录的总数

2)配置数据治理运营

配置治理完成后的准出评价

对已完成治理的CI类及CI记录计算质量评分,用户可通过评分了解到数据质量;同时治理完成后,CI类及CI记录需满足质量要求才可准出,让数据治理能够得到有效保障,才可提供给运维工具使用。

日常运营中定期评价

定期开展数据质量评分工作,从理论评分的反馈来督促配置经理与技术管理方制定更加可靠、完善的机制;从覆盖率、准确率等方面识别运营过程中配置数据的质量波动,计算得出实际评分且分析与理论评分的差距,根据评分结果出具数据质量问题清单并分析原因,然后汇总成数据质量报告,各关联方可根据质量报告进行问题的流程的优化,问题数据的完善及接口的整改优化等,持续提升配置数据质量。

我行配置数据质量提升工作特点

我行配置库数据治理工作顺应智能运维体系建设发展需要,成功探索了一条具有我行特色的方法及机制,解决数据质量痛点问题。

1)建立双闭环治理体系,为配置数据质量提供了机制保障

总结过去经验,通过一轮轮“运动式”的数据治理,难以解决数据质量问题。随着时间推移,未知潜在问题出现会导致数据质量变化及下降。我行探索的双闭环机制,不仅在配置库内部建立发现问题、分析问题、解决问题的数据全量净化治理小闭环,同时还建立从数据供给到数据消费的全生命周期运营大闭环,为配置数据质量提供了长久保障。

2)治理与评价双轮驱动,为数据质量提升提供持续动能

对数据质量评价体系建设不足,质量评价标准缺失将导致对治理后数据质量评价难、用户对质量提升情况感知不足等问题,影响数据治理工作的持续推进。我行配置库通过对治理体系、质量评价体系并行建设,即推动了治理工作有序推进,同时治理后数据质量得到了各方充分认可,为后续工作开展,数据质量提升提供持续动力。

3)自研配置数据质量分,建立统一质量基准及运营机制

建立了统一配置数据质量评价基准,对配置数据进行评分,解决数据质量变化趋势感知难、数据质量用户认可难等现实问题。评分具备解释性,有据可依,有理可循,具备推广性。

后续工作

接下来,我行将持续贯彻双闭环数据治理体系思路,实现数据质量的全面提升,夯实配置数据核心地位,发挥数据基础作用,助力提升我行数据中心运维服务对象、运维能力的洞察能力以及运维服务能力,支持我行智能运维体系快速平稳发展。

“实践案例分享-广发银行”编委介绍

双态IT论坛成员单位

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部