通信行业首批!咪咕互娱通过 AIOps 国际及国内标准双证评估

通信行业首批!咪咕互娱通过 AIOps 国际及国内标准双证评估
2024年10月22日 11:31 IT爆料王珠珠

新生态、新技术、新业务不断涌现的当下,企业IT架构复杂度、IT基础设施规模快速增长,智能运维(AIOps)正成为企业管控物理设备、实现快速需求迭代、保障业务连续性的必备手段。《“十四五”国家信息化规划》《关于印发“十四五”国家应急体系规划的通知》等政策文件中提到,要建设泛在、智联、高质量的数字基础设施体系,发展下一代智能设施体系,建设新一代智能运维体系和具备纵深防御能力的信息网络安全体系。

2024年10月18日,第二十四届GOPS全球运维大会暨研运数智化技术峰会在上海正式召开,中国信息通信研究院隆重公布了ITU AIOps 国际标准和AIOps国内标准双证同步评估结果。

咪咕互动娱乐有限公司(简称“咪咕互娱”)本次参评项目为“咪咕快游智能运维可观测项目”,顺利通过 ITU AIOps 国际标准评估、以及 AIOps 国内标准(《云计算智能化运维( AIOps )能力成熟度模型第3部分:可观测性能力要求》)【用户体验3 级评估,代表咪咕互娱的相关能力达到国内领先水平。

评估单位:中国信息通信研究院

2024年10月18日在第二十四届GOPS全球运维大会暨研运数智化技术峰会上,由中国信息通信研究院副总工程师许志远先生为企业授牌:

此次,我们采访了中国移动咪咕公司咪咕互娱副总经理苏毅先生,一同深聊团队在项目参与评估时的细节和故事,分享实践经验。

Q&A

中国移动咪咕公司咪咕互娱副总经理苏毅

Q您好,请介绍一下您和您的企业,以及此次参与评估的项目。

苏毅先生:咪咕互动娱乐有限公司(以下简称“咪咕互娱”)是中国移动数字内容游戏板块的唯一运营实体,作为兼具运营商特色和互联网特点的数字内容平台科技创新公司,咪咕互娱致力于向合作伙伴开放专业的云游戏平台运营、内容合作、云原生游戏研发及算力解决方案等综合型平台服务,为用户提供优质的云游戏内容及创新的云游戏玩法。同时,借助中国移动5G、算力网络、区块链、人工智能等信息技术,利用云游戏的技术架构和交互体验,打造面向下一代的益智健康游戏第一平台——咪咕快游。

根据2024年《政府工作报告》提出“人工智能+ ”行动,加快形成以人工智能为引擎的新质生产力要求,同时2024年中国移动集团工作会指出要深化AI+赋能应用,提高数智化经营水平,咪咕快游积极响应国家号召,积极参与“AI+”战略赋能行动,在产品能力层面,实现AI+生产能力、AI+智能推荐、AI+互助社区保持产品力领先,运维能力层面结合AI技术完成中国移动5G云游戏智能运维工具开发,落地智能算力巡检、智能质量监测和智能知识问答等三个场景能力,赋能《黑神话:悟空》、《天天八段锦》、《2024年中国移动杯我要上智运:全民棋牌全国网络大赛》等重点游戏业务支撑,显著提升工作效率、平台稳定性和用户服务质量。

咪咕快游智能运维可观测能力是基于咪咕快游客户端服务端数据采集,从用户体验角度落地客户端可用性、端到端业务链路性能分析、全栈代码性能剖析、系统能力优化、业务指标异常检测、系统告警降噪等6个能力场景,对咪咕快游系统内部的运行状态、用户行为和服务性能等方面被可靠地观察、分析和监控。通过对系统产生的日志、指标、链路跟踪和事件等四种类型数据关联,并进行端到端深度指标数据透视和拓扑关联分析,为咪咕快游系统在生产环境中提供实时运行的技术支撑,同时也为公司打造互动、智能、便捷的数字产品体验奠定坚实基础。

此次参与可观测性标准评估的项目主要聚焦于我们公司在系统监控、服务性能追踪和业务场景分析等方面的能力,希望通过标准化的评估体系进一步验证和提升了我们对系统运行状况的把控和诊断能力。智能化运维(AIOps)评估具备较高的权威性,有助于提升咪咕快游云游戏平台稳定性和服务质量水平,从而提高用户对平台的信任度,并增强其在行业中的影响力,以确保平台始终保持业界领先地位,为用户提供卓越的云游戏体验,助力公司业务高质量发展。

Q恭喜贵公司通过了可观测性标准评估,达到了国内领先水平。对于此次评估结果,您有什么感受?

苏毅先生:非常感谢!能够通过可观测性标准评估并达到国内领先水平,也是首批首家获得可观测能力评估,这是对我们技术团队多年来不断优化系统监控和运维流程的肯定。这个结果不仅提升了我们对复杂系统的信心,也为未来业务扩展提供了更加稳固的技术基础。通过这次评估,我们进一步明确了在可观测性方面的最佳实践,同时也验证了我们现有的技术方案能够应对业务增长带来的复杂性。这对公司来说意味着更高的系统稳定性和更强的应急响应能力,确保我们的服务在客户面前始终高效、可靠。

此次评估,咪咕快游智能运维可观测在用户体验、数据观测能力、采集传输、数据存储、数据处理和数据管理等6个能力标准及78项不同维度的评估中均表现优异,特别在咪咕快游用户体验和数据观测分析能力等方面展示出显著优势。此次咪咕快游获此殊荣,意味着中国移动5G云游戏平台综合能力已占据行业领先地位,既是对咪咕快游品牌的一次强有力的背书,也标志着中国移动5G云游戏在智能数智化转型方面迈出了坚实的一步。

Q在当今复杂的系统环境中,您认为可观测性对业务连续性和稳定性有多重要?贵司是如何看待并实施这一标准的?

苏毅先生:在当今高度分布式和动态变化的系统环境中,可观测性对于业务连续性和稳定性至关重要。没有有效的可观测性,系统故障、性能瓶颈或潜在问题可能无法及时被发现,进而影响用户体验甚至导致业务中断。随着我们业务和技术栈的不断扩展,系统内部的组件变得越来越复杂,单纯依靠传统监控手段已经难以满足我们的需求。因此,基于公司云游戏业务平台整体系统监控、日志数据、性能指标以局部视角,且数据源单一,业务系统多且复杂,缺少对全栈链路调用关系分析,同时存在系统自动化能力待提升的现状。咪咕公司通过实现数据层治理、全栈观测链路追踪分析及智能运维能力技术落地,并成功构建先进的云游戏平台可观测能力场景。

Q可观测性被视为现代系统运营的重要能力,贵公司是如何通过可观测性建设提升系统的透明度和可诊断性的?

苏毅先生:可观测性让我们对系统的运行状态有了前所未有的透明度和可见性,这极大地提升了我们解决问题的效率和响应速度。通过可观测性工具的应用,我们能够实时获取系统的运行数据,并通过各个可视化场景了解每个微服务及系统整体的性能表现以及整体架构的健康状态。这样的透明度让我们可以主动发现并解决系统中的潜在问题,而不仅仅是被动应对突发故障。

为了确保业务的连续性和稳定性,我们从多个维度实施了可观测性标准。首先,我们落地了统一的监控和日志系统,对所有服务和基础设施进行细粒度的监控与跟踪。这不仅涵盖了系统健康状况的实时监测,还包括对历史数据的分析,帮助我们提前预警潜在风险。其次,我们通过分布式追踪技术对系统内部的调用链进行全方位监控,确保在复杂架构中能够快速定位和排除故障。最后,我们也面向业务提供游戏启动、用户登录、会员订购、专题营销活动等场景提供业务访问及转化分类分析能力。

Q通过可观测性标准评估对贵公司的技术栈和运营流程产生了哪些影响?您认为这些变化对业务有何帮助?

苏毅先生:通过可观测性标准评估,我们对技术栈和运营流程进行了全面的梳理和优化。这一评估帮助我们识别了系统中尚未实现有效可观测性的部分,促使我们在整个技术栈中进一步扩展了监控和日志的覆盖范围。我们还落地了一些先进的可观测性工具,提升了数据收集和分析的自动化程度。

这些变化直接促进了业务的稳定性和效率提升。例如,在评估后的实施阶段,我们优化了分布式追踪系统,解决了部分微服务的性能瓶颈问题,缩短了用户请求的响应时间。此外,通过改进日志管理和监控报警机制,我们能够更快速地响应潜在的系统问题,减少了系统故障导致的停机时间。总的来说,这些优化提升了我们系统的可预测性和可维护性,使得我们能够在技术和业务上保持更高的稳定性。

Q在提升可观测性能力的过程中,贵公司在哪些方面取得了显著进展?是否有具体的成功案例可以分享?

苏毅先生:过去几年中,咪咕互娱公司对云游戏平台进行了智能化运维与可观测性实践探索。以下是我们回顾当时面临的主要问题及相应的改良措施:

1、监控存在盲区:我们的云游戏平台在快游客户端、服务端及算力平台的端到端流程中存在监控盲区,这导致了终端核心维度和服务端链路数据采集的不足。

2、业务系统复杂性:快游平台由20个子系统组成,这些系统涉及众多服务器,且系统间的依赖关系错综复杂。系统日志数据相互独立,使得在系统出现异常时难以进行精准识别。

3、运维能力提升需求:运维系统工具各自独立,监控分析、问题处理、版本变更等运维工作主要依赖人工和工具辅助相结合,这限制了运维效率。

为解决上述问题,我们致力于构建云游戏平台的智能运维和可观测能力目标。从系统运维和业务运营两个方面出发,基于管理人员、业务人员、技术人员三个角色,聚焦咪咕快游核心业务监控场景,围绕系统基础资源性能、日志及用户体验、应用服务等维度,多维度数据融合,实现咪咕快游业务系统全链路监控,全方位感知业务服务状态。我们通过以下几个步骤实现这一目标:

1、数据关联:对咪咕快游系统产生的日志、指标、链路跟踪和事件等四种类型数据进行关联分析。

2、深度透视:针对云游戏业务场景定制业务流程步骤,进行深度指标数据透视,以识别关键性能指标和业务转化分析。

3、拓扑关联分析:基于云游戏平台实时用户访问,构建咪咕快游系统架构拓扑,通过拓扑关联分析,对咪咕快游系统各组件间的相互依赖分析和影响评估。

Q实施和优化可观测性标准过程中,贵公司遇到了哪些技术或组织上的挑战?您是如何应对这些挑战的?

苏毅先生:在实施和优化可观测性标准的过程中,我们遇到了一些技术和组织上的挑战。技术层面,系统架构的复杂性使得数据的收集和分析变得困难。例如,云游戏平台覆盖全国用户,需要在全国多个机房部署,不同机房的数据采集、数据压缩传输、格式转换和API接口存在一定差异性,整合这些数据需要耗费大量时间和精力。

为了应对这些挑战,我们首先建立了专项的技术攻关小组,专项负责可观测性能力的实施和技术选型,该小组的成员具备各自领域的专业知识。其次,我们落地了标准化的数据采集和存储方案,确保各个系统生成的数据能够以一致的格式进行处理和分析。此外,我们还与行业进行深度交流,落地可观测数据采集和处理解决方案,以加速数据整合的过程。

在组织层面,我们也面临着转变。要让团队理解可观测性的重要性,面向业务、研发和运维人员交付能力,并积极参与到可观测性实践中来,需要时间和耐心。为此,我们定期举行培训和分享会,分享成功案例和最佳实践,激励业务及技术部门积极参与。

Q在您看来,提升可观测性能力的核心关键是什么?企业应如何确保系统在复杂环境下的可观测性?

苏毅先生:在我看来,提升可观测性能力的核心关键在于系统化的思维和持续的改进。咪咕互娱的智能运维平台与可观测技术,创新价值体现在其深度集成的AI人工智能技术上,紧跟AI大模型技术能力,智能运维推动了运维管理向自动化和智能化的转型,还通过其创新的深度学习模型、自然语言处理和图像识别技术,为公司业务发展提供了实践的范例和借鉴。同时在提高运维效率、降低成本、增强系统稳定性方面的成功应用,展示了智能技术在复杂IT环境中的巨大潜力和价值,引领着整个行业向更高效、更可靠的服务模式发展,为公司业务数字化转型和高质量发展贡献一份力量。可观测技术则是通过收集系统运行状态、用户行为和服务性能等数据,帮助企业快速发现问题并准确定位故障,以便及时采取措施进行修复和性能优化。

为了确保系统在复杂环境下的可观测性,我们还定期进行咪咕快游可观测能力运行情况进行评估和优化,持续的反馈能够确保可观测性实践与业务需求保持一致。我们在实践中采用了定期开展可观测性评估沟通会,回顾过去的监控数据和指标,识别改进的空间并进行相应调整。

Q接下来,贵公司在可观测性领域有哪些新的计划或目标?是否计划进一步提升监控和分析的精细化程度?

苏毅先生:接下来,我们在可观测性领域有几个新的计划和目标。首先,我们计划进一步提升监控和分析的精细化程度,特别是在关键业务指标的实时监控方面。我们结合先进的AI分析工具,能够基于历史数据预测潜在的性能问题,并自动生成优化建议。

其次,我们将重点关注用户体验的可观测性,进一步跟踪用户在使用我们系统时的行为和反馈。通过结合用户端的监控数据,我们能够更好地理解系统的使用场景,并在此基础上进行相应的优化。

此外,我们还计划扩展可观测性的覆盖范围,将更多的非技术团队纳入到可观测性的实践中来。通过让各部门参与数据分析和问题诊断,我们希望建立一个全公司共享的可观测性文化,从而提升整体的响应能力。

Q您如何看待可观测性标准的未来发展方向?它在现代IT运营和业务连续性保障中的作用将如何演变?

苏毅先生:我认为,可观测性标准的未来发展方向将更加注重智能化和自动化。随着技术的不断进步,AI和机器学习将会在数据分析和问题诊断中发挥越来越重要的作用。可观测性不仅仅是数据的收集与监控,它将向数据驱动的决策和自动化响应转变。

智能运维与可观测作为一种新质生产力的IT运维成果,不论是在经济效益还是在社会效益上都具备广阔的推广空间和价值前景。

1、经济效益:通过减少对专业运维人员的依赖,智能运维与可观测技术有助于降低人力成本。同时,通过快速解决问题,减少系统故障时间,能够显著提高企业的运营效率。智能运维与可观测技术能够提供7*24小时不间断服务,提高用户体验,增强用户对企业服务的满意度和信任度。

2、社会效益:作为国有企业,咪咕互娱在推动智能技术发展的同时,也承担着社会责任,通过技术创新为社会带来积极影响,体现了企业的社会责任和担当,在智能运维与可观测技术方面的实践,可以为行业标准的制定提供参考和借鉴,推动整个行业的健康发展。

总体来看,随着企业对数字化转型的不断深入,可观测性标准将成为支持业务连续性和创新的重要基石,同时积极拥抱新技术、新模式,推动产品和服务升级,以科技驱动业务增长,实现公司长远发展目标。

智能化运维(AIOps)能力成熟度模型介绍:

目前,基于“智能化运维能力成熟度系列标准 第1部分:通用能力要求”开展的智能运维(AIOps)通用能力成熟度评估已全面开放。其中智能计算引擎、数据管理、配置管理为必评项。

基于“智能化运维能力成熟度系列标准 第2部分:系统和工具技术要求” 开展的智能运维(AIOps)系统和工具能力成熟度评估已开放12个模块:异常检测、故障预测、告警收敛、根因分析、故障自愈、故障预防、容量预测、知识库构建、资源优化、智能变更、系统评估、智能问答。

基于“智能化运维能力成熟度系列标准 第3部分:可观测性能力要求”开展的智能运维(AIOps)可观测性能力成熟度评估已开放4个模块:分别为基础设施+容器性能、应用性能、用户体验、业务性能。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部