在内部开发者门户中使用K8SGPT调试K8S_

在无缝的开发者门户体验中，学习如何将 AI 驱动的洞察集成到您的 Kubernetes 工作流程中。

译自Debugging K8s With K8sGPT in Your Internal Developer Portal，作者 Dan Amzulescu。

快速识别和解决问题对于DevOps和站点可靠性工程(SRE)团队来说是一个持续的挑战，他们经常发现自己需要处理与每个问题相关的复杂命令、日志和仪表板网络。这种分散的方法会延缓问题的解决，开发人员经常报告他们花费近40%的时间进行故障排除——这也增加了软件环境面临人为错误的风险。

平台工程的出现是为了克服DevOps的复杂性，而平台工程的核心是内部开发者门户。内部开发者门户简化了事件响应，减少了手动工作，并使DevOps团队能够更快地解决问题。它提供了一个统一的空间来管理基础设施、代码库和部署。

门户还将与软件开发生命周期(SDLC)相关的所有数据集中在一个易于访问的地方。将AI集成到您的门户中可以帮助您主动识别潜在的系统性能下降，并提供有关补救的即时指导，这有时可以将您的平均事件解决时间缩短50%。

在本文中，我将引导您了解如何使用AI来丰富门户数据，以及如何在门户中显示丰富的数据以减少解决时间。

使用K8sGPT丰富门户数据

K8sGPT是一个专门为Kubernetes(K8s)环境设计的AI代理。它从历史数据中提取可操作的见解，提供快速建议，从而显著减少解决时间。通过精确定位异常或错误配置并提供智能解决方案，K8sGPT将传统上的被动流程转变为主动流程。此外，通过与您的门户紧密集成，这些见解在一个单一窗口中呈现，完全符合您的操作工作流程。

虽然此示例将仅关注Kubernetes，但在更高级的场景中，例如云基础设施（问题通常跨越堆栈的不同层），AI可以跨多个领域提供帮助。我们的目标不仅仅是让AI能够处理多个领域，而是使其能够完全自动化补救过程，独立解决问题。

在内部开发者门户的上下文中，您可以使用K8sGPT从整个SDLC中的所有工作流程收集数据并从中提取见解。考虑到这一愿景，让我们从小处着手，探索单域工作流程如何提高效率。

部署自动AI丰富流程

假设您想创建一个自动化工作流程，以使用Kubernetes工作负载的实时视图来丰富您的内部开发者门户。此工作流程涉及几个关键组件，这些组件协同工作，将使用AI创建一个自动化流程，帮助您使用门户解决K8s中观察到的问题。

这些组件包括：

Kubernetes (K8s)集群: 这代表您的工作负载基础设施。部署Kubernetes集群的方法有很多，最常见的是平台即服务(PaaS)，例如AmazonEKS，MicrosoftAKS和GoogleGKE。无论您使用什么，都应该在集群和门户之间进行集成，以便同时列出工作负载及其运行状况。
内部开发者门户：这是所有关于Kubernetes集群的数据被集中、关联和细化的位置。这将方便地访问部署数据和有关如何解决不健康的Kubernetes工作负载的AI见解。我将在此示例中使用内部开发者门户:Port。
K8sGPT: 这是主要的AI“顾问”。它负责对K8s API发出命令，以收集数据并与提供见解的AI大型语言模型(LLM)进行来回通信。
- K8sGPT可以在集群外部和内部部署。要部署K8sGPT REST API服务器，请按照安装指南进行操作。
- 使用此命令启动REST API：k8sgpt serve --http
- 要在集群内部署K8sGPT，请按照安装指南进行操作。
通信协调器: 通信协调器对于弥合门户和K8sGPT之间的差距至关重要。它确保命令、查询和见解能够在这些系统之间无缝流动。根据您组织的安全和合规性要求，您可以使用：
- Kafka主题，本例使用此方法。这意味着当工作负载被识别为失败时，将在Kafka主题中创建一个消息。通信协调器（在本例中为Python脚本）将处理检查主题和基于PULL方式消费消息。
- 另一种方法是让脚本持续检查工作负载的本地运行状况，并在工作负载失败时使用AI见解丰富检查结果。
AI LLM: K8sGPT背后的核心智能利用自然语言处理来解释Kubernetes数据并提供可操作的建议。