大模型在可观测AIOps的探索和应用实践_

在云原生时代，运维团队面临着数据质量波动、标注不足以及链路信息不完整等重大挑战，这些障碍严重影响了 AIOps（智能运维）的有效实施。监控数据的不确定性增加了运维任务的复杂度，使得从海量数据中提取有用信息并作出快速响应变得更加困难。

基于此，在 4 月 25、26 日举办的 2024 全球机器学习技术大会上，特邀请了来自阿里云的高级技术专家董善东给大家分享「大模型在可观测 AIOps 的探索和应用实践」主题演讲。

大模型强大的涌现能力和推理能力，为 AIOps 在复杂架构下提供更精准的数据关联和诊断提供了可能。阿里云可观测团队通过 AIOp 结合大模型应用，探索了利用大模型进行知识问答和 PromQL 查询生成，极大地简化了对监控数据的查询与分析过程。此外，大模型在提供上下文明确的告警方面表现出色，通过与 ChatOps 机器人的整合，实现了更加自然和人性化的交互方式。这些实践不仅提高了诊断效率，也为系统异常的快速解决提供了有力支持。

然而，大模型作为 AIOps 实施中的双刃剑，同时也带来了一系列新的挑战，包括模型的解释性问题和与现有系统的集成问题。基于 ReAct 框架的 agent 协同诊断方案为这些挑战提供了可能的解决路径，使得 AIOps 不再局限于单一的自动化任务，而是朝着更加协同和自适应的方向发展。展望未来，我们预测大模型将继续在可观测性领域中扮演关键角色，推动 AIOps 技术的进一步发展和创新。

在本次全球机器学习技术大会上，来自阿里、微软、蚂蚁集团、小米、智谱、零一万物、面壁智能、复旦大学教授、智源人工智能研究院等大模型领域的专家将云集于此，与你共同探讨人工智能的前沿发展和行业最佳实践。

他们包括：