清华教授裴丹：大模型与智能运维的融合_

大模型时代下，有4个运维界普遍关注的问题，比如大模型落地运维场景，面临哪些技术挑战？与较为成熟的 AIOps 小模型有什么关系？面对百模大战的情况，如何选择大模型的底座？以及近期、中期、长期有哪些落地的应用？

今天将为大家带来个人的一些观点，供大家参考。

分享嘉宾｜裴丹清华大学计算机系长聘副教授、博士生导师，内容已做精简，如需获取专家完整版视频实录和课件，请扫码领取。

01大模型时代，智能运维的变化与趋势

以上面左图为例，在大模型之前，我们有很多还不错的工具，但实际操作起来跟决策者之间有一个鸿沟，因为它操作起来是有一定的技术门槛，不是很方便。但是到了大模型时代，决策者或者资深专家是能够现场决策的，可以通过自然语言，跟智能运维的工具所结合。

上面右图可以类比当前智能运维领域现状：我们现在有不少大模型的AIOps工具，可以类比于星球大战电影里R2-D2机器人，可以实现遥感、遥测、操作、处置等各种能力，但缺点是不会说人话。星球大战的主角作为决策者，无法直接跟R2-D2机器人进行对话，所以需要一个大语言模型，也就是中间的金色机器人，专门做翻译，实现让已有工具说人话的希望。

在此基础上，除了要说人话，AIOps还需要把语言模型和各种小模型工具有机的整合。

这是一个什么概念？上图右上角有很多的运维场景，左下角有很多不同模态的运维数据，面对复杂的场景，多模态数据和实时数据的数据关系，取决于拓扑等多种依赖关系数据。

这种组合出来很多工具，表面看起来能力还蛮强的，也用到了AI，但是实际上它只是解决非常聚焦的一小部分。小模型众多，除了说人话以外，能不能把这些小模型工具有机的整合起来？是落地过程中很重要的一个问题，也是大家关注的。

不久之前，比尔盖茨在博客发表了一篇文章，核心内容提到 AI Agent 即将彻底改变人类使用计算机的方式，会有各种各样的AI助手帮你定差旅、做各种事情。那么落实到运维领域，这种智能体可能是助理、教练、顾问、参谋、内部专家等等，但是要落实到这样的角色上，绝对不是说简单的翻译能力，一定是具备多重且复杂的能力。

这是一篇英文版的学术论文，他试图总结智能体的概念。大语言模型只是左上角的一小部分，而框内的整体是一个智能体Agent，它会跟外界进行实时的交互，除了对话以外，还要感知世界、了解世界、采取行动干预世界。

将上述关系抽象出来，就是右边的流程图：感知世界、做出判断、做出选择、进行执行，然后再重新感知，这就是智能体大概的概念。

那么大语言模型落到运维领域，就需要运维的大语言模型：

具有语义记忆，也可以认为是各种结构化的知识，包括基于知识图谱的方式，或者拓扑数据库的方式，来存储语义知识；
具有情景性记忆，类似于历史数据中的历史工单、告警、操作记录等；
同时需要支持各种决策，比如要做排查故障，类似医学一步一步排查，需要包含决策的机制；
可以实现感知，比如一个人形机器人，要有视觉和听觉，对于运维来说，要针对不同模态的运维数据，有各种算法等等。

总结后会发现，过去说的智能运维的小工具，在智能体的架构里面，可能有些是 plug-in、有些是知识、有些是随机文档或情景性的数据、有些是逻辑等等，这些整体构成大的智能体。

02百模大战，各个底座大模型的性能评测

我们针对主流的大语言模型做了统一测评，形成了一个榜单。将大模型在我们的GPU集群上进行系统性的评测，比如说 Zero-shot，3-shot，然后再加上思维链，和其他的机制。

上图是评测的结果，在运维领域联合中兴、华为、腾讯、联想等十多家机构出了一万道题，从结果来看基本分成三档，GPT 4和GPT 3.5属于第一梯队，中间部分属于第二梯队，更早期的一些版本属于第三梯队。

运维的细分领域中，会发现结果还是有参差不齐的地方。所以大家会存在一些困惑，大模型底座是怎么选？通识大模型听不懂运维语言，那能听懂运维语言的大语言模型是一个什么概念呢？

参照现在的大语言模型，在行业应用中基本上分三层：第一层是大模型的底座，第二层是行业的大语言模型，第三层是私有部署的大语言模型，有些行业领域会认为第三层是面向场景的，基本差异不大。

03运维领域大模型应用的不足和挑战

首先，大语言模型在运维领域的普遍落地中，需要避免过于乐观，因为它还存在不少的技术挑战。

1）运维领域，对错误容忍度低，需要尽量避免幻觉产生；

2）垂直领域内判断答案对错的标注门槛比较高，想进行微调，得请专家来提供标准的问答；

3）对于结果要求必须可解释性强，又要支持低开销的私有部署；

4）落地过程中运维语料还有不足，特别是私有语料，质量和数量都不足；

5）针对存量中大量的结构化知识怎么融合，大语言模型无法直接处理结构化的、多模态的、实时的数据；

6）如何结合大量存量的运维工具。

同时，也要避免悲观，前述所有的技术挑战都有技术思路可以解决。

1）为了避免幻觉和做到可解释性强，可以通过检索增强，增大显式知识占比，类似知识图谱的方式。具体操作可以有思维链、思维树、思维图、知识图谱。同时为了增强可解释性，要用“有据可依”的生成策略提供可解释性；

2）严肃语料不足的问题，可以通过由易到难课程学习的方式进行训练；

3）私有部署开销低，以及私域数据的数量质量不足，可以在刚才说的模型分层中，在第三层尽量不做预训练，甚至微调都要谨慎，因为可能各方面资源和数据都不够，然后在公域数据做运维的预训练，微调一部分的提示工程，把它做到尽量的好，再私有部署。检索结合本地知识库，文档提示可以作为便捷的知识工程手段，同时在实际进行推理的时候也需要资源，通过降低模型的精度，从而降低私有部署的推理开销；

4）在底座选型的时候，尽量与开源大语言模型的底座解耦，将来万一要做底座替换的时候，只需要付出重新训练的成本，但是之前所有的探索可能都是能够保留、积累、沉淀下来的；

5）对于结构化、多模态、实时数据的处理，可以有专门的多模态基础模型群、AIOps结构化大模型；

6）关于结合自动化运维工具，可以利用智能体的方式，把已有的工具结合在一起；

这是大致的思路，在具体应用的时候，其实不求全面开花，而是小步快跑。

04运维大语言模型的应用举例

有了大语言模型，近中期应用的定位，我认为可能以助理、教练、顾问、参谋这种方式，不做拍板、不做决策、不做处置，只提各种建议。中长期的应用，可能变成了内部专家，可以做一些处置和决策拍板。

应用1：数字化运维助手

这个助手只是问答，不直接对接数据，甚至可以从某个工具里截屏发图给他，但是不做直接的数据对接，只是对类似排查故障的决策树，对这种结构化的知识进行检索。

用户可以问运维助手，故障可能的原因是什么，运维助手对着决策树，一层一层的问下去，一直到最后发现是某个问题，就可以看直接怎么处置。

应用2：私有文档的问答

大多数企业都有大量的运维排障文档、应急手册、产品手册、API 文档等等，但是其实使用的效果都不是很好。结合大语言模型，希望能够把文档统一通过大语言模型问答的方式获取。

这里不是单个文档上传后，可以进行单个文档的问答，而是针对所有的问题，把所有的文档结合在一起，介于检索增强的方式，同时生成策略要有据可依。

应用3：脚本解读

对存量的脚本进行文字解读，这个脚本可以是SQL、图SQL、日志查询语句、命令行的脚本、配置，可以用于培训，新员工进来之后，节省高级别的专家时间，提升效率。

应用4：数据注释

例如系统提示告警，产生了一段日志，里边有各种字段，那对它进行有效的解释，这里用自然语言的方式表达出来，也是比较常见的一种应用。

有很多工具，比如告警工具，国内、国外都已经在做这个工作了；在安全领域，有很多安全的设备，告警也都在这方面做了一些尝试，我觉得这个是切实可行的。

应用5：近中期与中长期应用

近中期的应用，可以通过自然语言变成各种的查询，可能是企业内的API，也可能是公网的API，也可以是生成SQL，生成图SQL 。这里相对前面的应用来说会稍微谨慎一点，数据要标准化，工具接口要标准化。因为从脚本和配置进行解释，差一点关系不大。但是反过来，像 SQL 这类参数差一点，可能结果是不对的。

再往后的应用，就可以结合前面说的智能体了。

前面是为单个的工具进行增强，那如果有一个复杂的任务，基于大语言模型，对实时的故障工单进行自动的生成。这里展示的是谷歌 SRE 那本书里面的内容，比如现在出了一个故障，现在事故的实时故障文档里面，自动生成了一条记录，过一会儿这个系统做了一些操作，它再自动的生成一条，大致判断是哪里出现了问题，正在进行什么排查，但是还没有结论，一直继续，直到这个问题被解决。

你可以想象这是一个非常复杂的任务，它一定是智能体的感觉，需要结合大量已经拆解的工具、智能运维的算法、结构化的语义、知识图谱，以及场景化的小算法，再进行结合编排，然后推理、交互，有时甚至需要干预一下，然后看看结果怎么样，再回来判断。甚至有些检查是触发式的，要跟外界交互，最后输结果。

AIOps小模型的工具，在大模型时代是一个共生、互相促进、互相补充，最后构成了大模型时代智能体的解决方案。

05大模型在AIOps领域的应用落地路径总结

面对运维大模型，仍然面临不少挑战，需要避免过于乐观，但同时这些挑战也都有解决方式，也要避免过于悲观。

应用的定位建议先从助手开始，可能是帮着做一些工作，然后是培训的教练、顾问、参谋，最后是内部专家。上面也举了一些近期的例子，比如数字化的运维助手、私有运维文档的问答、脚本解读注释、运维数据注释等等。对于近中期，单个运维工具可以进行自然语言交互增强。对于中长期，基于智能体编排多个工具，完成更复杂的运维任务。

整体而言，我个人的观点认为大模型的时代已经切切实实的到来，我们需要持谨慎乐观的态度，因为它是大势所趋，前景非常可期，机遇挑战并存，同时我们也需要协同创新，以用促建。

裴丹博士的主要研究方向是智能运维（AIOps）。裴博士在美国UCLA获得了博士学位，之后加入美国AT&T研究院担任资深研究员、主任研究员。裴博士在智能运维领域发表了约200篇学术论文和30多项专利授权。他是CCF AIOps算法挑战赛的创办者。他目前是计算机网络领域旗舰期刊IEEE/ACM Transactions on Networking 的编委，并曾担任IEEE计算机网络领域旗舰会议ICNP 2022的技术程序委员会主席。