前言
随着信息技术的飞速发展,数字化转型已经成为企业提升竞争力、优化运营效率的关键路径。 国家数字化转型战略要求是将信息化和工业化深度融合,推动数字经济发展,促进经济高质量发展,提高国家治理能力和社会服务水平。运维系统围绕管理体系数字化落地和运维效能智能化建设,旨在提升服务质量和运维效率。
背景
云计算、大数据、人工智能、物联网等新兴技术的出现,为企业数字化转型提供了强大的技术支持。这些技术的出现给运维管理带来了深刻的影响,云计算技术使得运维更加关注资源的利用率、更专注保障系统的可靠性和稳定性;大数据技术使得运维可以深入了解系统的运行情况,更好的进行故障排查和性能优化;人工智能技术使得运维能够预测故障和提供系统优化的辅助决策建议。
随着技术的更新迭代,运维管理面临前所未有的机遇和挑战。传统IT运维管理存在诸多问题,例如缺乏统一运维数据底座、流程没有电子化、人员能力不足等,这些问题制约了运维效率和运维服务质量。随着业务规模的扩大和IT系统的复杂化,亟需构建一套高效、智能的IT运维管理系统来推动运维生态完善和技术迭代,逐步实现运维管理标准化、自动化、智能化转型以应对日益增长的运维需求。
X航为中国三大航空公司之一,IT运维面临着如下挑战:
另外,基于内部管理需求,建立了数字化运维流程管理体系,并建设了IT运维管理系统,以提高运维效率和服务质量,进而保障业务稳定运行、IT运维可管可控、IT用户满意。
具体技术和能力体现在如下方面:
自动化运维:通过自动化工具和技术,实现运维管理的自动化,减少人工干预,提高效率和准确性。
数据驱动运维:通过数据分析和挖掘,实现对运维管理的优化和改进,提高系统的可靠性和稳定性。
敏捷运维:采用敏捷开发和运维模式,快速响应业务需求,提高运维管理的灵活性和适应性。
安全运维:加强安全管理,保障系统和数据的安全性,防范各种安全威胁和风险。
解决方案
01 目标
提高服务质量
构建核心运维管理指标来提高服务质量,实现7*24小时的安全响应,确保核心系统的可用性不低于99.99%,并且做到系统恢复时长小于30分钟,数据丢失不超过5分钟。实时监控、及时告警和快速响应,确保IT服务的稳定性和连续性,从而提高用户的满意度。
提升运维效率
通过统一配置管理、全生命周期流程管控、集中自动化作业、智能化分析,提高运维效率,降低运维成本。通过构建统一配置管理,实现资源的高效利用和统一管理,从而提高工作效率和降低成本;通过构建全生命周期流程管控,确保运维各项工作的顺利进行,避免出现漏洞和错误;通过集中自动化作业减少人工干预,提高工作效率和准确性;通过智能化分析辅助洞察自身情况,从而制定更加科学的决策和规划。
02 方案
运维规划蓝图
华为助力打造一个高效、智能且可扩展的运维“1331”管理体系,该框架涵盖了运维组织、运维流程以及运维工具等关键领域,“1331”是指一个愿景、三个目标、三个能力、一套体系。
一个愿景:运维数智化转型,保持信息技术服务领先地位。
三个目标:
业务应用稳定运行,保障业务应用能够稳定运行,不出现故障或者问题,以提供最佳的服务体验。
IT运维可管可控,包括IT资产可管可控、生产过程可管可控,运行结果可管可控、服务质量可管可控。
IT用户满意,通过提升IT服务的质量和效率,使得用户对IT服务感到满意。
三个能力:统一监控能力、管理与服务能力、决策分析能力。这三个能力代表了运维体系的核心能力,分别强调了对于整个基础设施和业务系统的监控和管理能力,对于服务质量的管理和提升能力,以及对于数据和信息的分析和决策能力。
一套体系:这是实现以上目标和愿景的关键,即通过建立一套完整的、智能化的运维体系,来支撑和实现上述的目标和愿景。一套体系包括三个方面,分别是:组织架构、流程规范、技术平台。
组织架构
通过梳理运维服务活动,构建运维业务“全景图”,明确运维业务的相关职责与职能,并以全景图为“基准”,设计组织的整体架构及岗位,并将业务内容映射到具体的团队及岗位,确保每项职责都有具体岗位进行承接,同时构建“柔性团队”工作机制,针对业务需求履行,实现敏捷高效交付。
同时,强调了运维团队的“稳态”高效执行和“敏态”设计与决策,以实现更全面的视角和更高效的决策,确保能够适应不断变化的技术环境。
流程规范
在运维流程规范方面,采用了敏捷和精益管理的方法,以实现快速的迭代和持续的改进。强调了自动化和标准化的重要性,以减少手动操作的错误和提高效率。此外,流程规范还需要注重流程的灵活性,以便在面对新的挑战和机遇时能够快速做出调整。
参考ITSS最新数据中心服务能力成熟度模型,将IT服务管理分为例行管理、服务支持、服务交付、技术运营、数智引领、传承创新、组织驱动以及数据治理领域。
运维平台
华为神农统一运维平台IMOC包括全栈监控、统一数据管理、工单流程管理、自动化运维、运维业务编排、运维数据报表与大屏展示等。通过平台帮助运维人员提高运维效率,降低错误率,并为未来的技术发展提供支持。通过统一的运维数据底座,将各种运维工具产生的数据和信息打通,实现了运维数据的集中管理和分析,提高运维效率和业务决策的准确性,为数字化转型和业务发展提供有力的支撑。
自动化
随着运维管理对象的快速增长,运维人员面临日益增多的设备、中间件、应用系统等维护需求。以前运维人员人工登录到设备上执行相关的操作,过程低效,操作无记录,需要有相应的技术手段来支撑。
IMOC自动化运维平台基于敏捷运维理念打造,提供自动化业务编排能力。以独立的脚本为能力单元,并以自动化业务编排的方式根据业务场景将多个能力单元灵活编排成自动化场景作业。同时,具备完善的运维风控管理能力,包括风控策略和风控报告功能,增强了脚本执行的安全保障,管控运维风险,保障系统的安全性和稳定性。
自动化运维作业实现IT系统的自动化管理,将操作单元自动化、操作过程流程化,减少简单重复的运维工作,提高操作的规范性、准确性和安全性,减少人为操作错误的风险。此外,可以更方便地进行经验沉淀和共享,并将运维动作标准化,固化为能力单元,通过编排为自动化业务场景,再通过场景化作业的方式来完成,让IT运维人员可以更加专注于高价值的工作,提高工作效率,同时也可以降低运维成本,提高IT系统的整体效益。
通过梳理运维活动,设计提供了健康巡检、软件安装、软件升级、账号密码、安全策略、操作系统补丁升级六个业务场景自动化能力,实现自动化批量操作,大幅提升了运维效率。
统一监控
统一监控平台可集中管理和监控华为云、浪潮云、青云等多个云服务和西南分部、重庆分部、浙江分部等多个区域的资源。所有监控数据集中在一个平台上,方便管理员进行统一管理和查看,提高效率。此外,该平台可实时掌握资源利用情况,优化资源利用率,减少资源浪费。同时,提供更全面的安全监控,及时发现和处理安全问题,提高系统的安全性和可靠性,保证业务的正常运行。
流程工单
实现了业务流程标准规范化,事件管理、问题管理、变更管理、应急管理、巡检管理、施工管理等流程配置进IMOC平台,实现流程线上流转,方便事件流转和问题回溯、保障处置的及时性。
工作流程规范化、标准化,避免重复工作和错误操作,从而提高工作效率和服务质量;
通过流程工单的实时监控和数据分析,及时发现工作中的瓶颈和问题,优化资源配置,提高工作效率;
减少人工操作和纸质文档的使用,从而降低企业的运营成本;
实现数据的实时监控、分析和汇总,为企业提供数据支持,帮助企业做出更加明智的决策。
实践成果
运维管理体系实现了对IT运维过程的管理和优化,提高运维效率和质量,促进资源的优化配置,降低运维成本,增强系统稳定性。
1. 运维效率提升
完善了IT运维管理体系,包括服务管理、资产管理、配置管理、变更管理、问题管理等方面,以确保IT运维工作的标准化、高效性和规范性。
实时监控与预警,及时发现和处理系统问题,保障系统的稳定运行。通过设置监控指标和阈值,系统可以实时监测各项运行指标的变化情况,一旦发现异常情况,预警机制会立即发出警报,通知相关人员进行处理。这样,运维人员可以在问题出现前及时采取措施,避免问题扩大化,保障系统的安全性和稳定性。
自动化减少了人工干预与重复劳动。通过使用自动化工具可以显著降低人工干预和重复劳动,提高工作效率和准确性。例如,自动化工具可以帮助运维人员实现软件自动化部署、配置和管理,从而减少人工干预和错误。
2. 业务稳定性增强
运维团队能够更加高效地监控和管理业务系统,及时发现和解决潜在问题,保证了业务系统的正常运行。运维工作更加智能化和自动化,提高了工作效率和准确性,为业务发展提供了有力的支持。
通过全面的监控体系与智能化的故障处理机制,系统异常能够得到及时发现与妥善处理。全面的监控体系和智能化的故障处理机制,可以实时监测系统运行状态,业务系统异常能够得到及时发现和妥善处理。高效的监控和故障处理机制可以有效地提高系统的稳定性和安全性,保障用户的正常使用体验。
3. 资源配置优化
高效的资源监控和管理工具,可以对各种类型的资源进行全面的监控和管理,包括资源的数量、使用时间等方面。通过对运维数据的分析和展示,运维人员可以深入了解系统的运行状态和资源的利用情况,以确保系统的高效运行并最大化资源利用率,从而提高系统的效率和性能。
“实践案例分享-华为”编委介绍
特别鸣谢
华为技术有限公司 李建维
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有