资源有限，如何构建高效能的 AI Agent_

作者 | AICon 全球人工智能开发与应用大会

策划 | 李忠良

在人工智能的璀璨星河中，AI Agent 无疑是一颗耀眼的明星。自诞生之日起，它便承载着人类对自主决策和持续进化能力的追求，历经数次技术浪潮的洗礼，而今随着大模型技术的突破再次站上了风口浪尖，成为业界瞩目的焦点。甚至不少专家认为，未来 AaaS（Agent as a Service）模式或将颠覆现有的 MaaS（Model as a Service），成为主导 AI 产业的新趋势。

日前，在 AICon 全球人工智能开发与应用大会 2024 北京站【AI Agent 技术突破与应用】专题圆桌交流中，小米大模型负责人栾剑担任主持人，与数势科技 AI 负责人李飞、彩讯股份 AI 产研部总经理邹盼湘、钉钉智能化平台架构师柯杰，共同探讨 AI Agent 领域的最新进展和发展方向。

2025 年 4 月 10 - 12 日，QCon 全球软件开发大会（https://qcon.infoq.cn/2025/beijing/）将在北京召开，我们策划了「更智能的企业 AI 搜索实践」、「反卷 “大” 模型」、「多模态大模型及应用」等热点专题，直击行业痛点，解锁可复制的经验与模式。如果你也有相关案例想要分享，欢迎通过以下链接提交演讲申请：https://jsj.top/f/tUOLpz

部分精彩观点如下：

大模型的性能将会急剧提升。
大模型 API 可能会促进国内 SaaS 模式的进一步发展。
有效利用私域数据并精准描述场景任务，可以在小模型下实现低成本、高效推理。
大模型技术并非万能，但通过合理拆解问题，就能在可行的范围内解决问题。
改进 AI 意图识别是提升人机交互体验的重要方面。

以下内容基于现场速记整理，经 InfoQ 删减。

栾剑：如何挑选和判断适合使用 AI Agent 赋能的场景？

邹盼湘：在选择场景时，我们主要从两个方面考虑。首先，业务流程必须要清晰，因为大模型的落地应用需要明确的业务流程。如果业务流程不清晰，模型的效果就难以达到预期。其次，我们的场景中需要有一定的数据积累，无论是业务数据还是用户行为数据。只有在这种数据积累的基础上，进行 AI 探索或初步落地，才是一个较为合适的选择。

李飞：在落地过程中，我们发现 Agent 主要用于工作流编排。简单场景不适合用 Agent，因为任务本身简单，Agent 反而可能增加复杂性，客户等待时间过长。但对于复杂场景，涉及多环节且环节顺序灵活，Agent 也许能通过大模型规划实现编排。因此，没有一个固定答案，需根据场景找到合适的平衡点。复杂任务用预编排工作流，中等复杂度任务可以用大模型规划。

柯杰：我们可以从三个场景来讨论。首先是“AI+”，即将 AI 与现有业务流程结合。这种方式的核心是连接当前大家已经熟悉的业务流程，让业务习惯得以保留。但实际上，很多人对于这种转变的接受度仍然较低。

其次，由于目前大模型技术还不够成熟，我们可以创建一些通用模板，在模板中替换不同的参数来生成新的工作流。例如，某个工作流可能最终会将数据收集到一个多表中，而不同的工作流只是替换了不同的多表参数。这种方法可以在一定程度上复用现有工作流，提高效率。

最后，我们的功能编排目前还是基于传统的工作流系统，这对开发框架来说仍然是一个挑战，因此目前对开发人员的要求较高。在这种情况下，我们每个人都需要理解“模型与产品匹配度”。我们需要清楚了解模型的能力和产品的需求，找到二者之间的平衡点，明确哪些任务适合模型来做，哪些需要人工介入。

栾剑：我个人在选择场景时，首先会考虑这个场景的商业价值。我们需要判断使用 AI 后，是否能在降本增效等方面带来显著的商业价值。如果人工完成该任务已经非常高效，而引入 AI 反而增加了成本，那么可能不值得替代。

其次，要考虑技术能力。随着大模型的发展，它在自然语言理解和生成，以及视觉理解和生成方面的能力有了显著提升。如果一个任务或场景涉及这些领域，大模型可能会带来很大的收益，能够完成得更好。但对于一些大模型目前尚不擅长的任务，如复杂推理或规划能力，我们需要更加谨慎地判断是否可行。

第三，数据积累也是一个关键因素。通用大模型仅通过 Prompt 方式进行任务时，效果会受到一定限制。我们通常希望有更多场景相关的真实数据来优化模型，因此，如果场景内的数据积累较多，优化效果会更好。相反，如果数据积累不足，效果可能就会受到限制。

最后，还要做风险评估。需要考虑场景对可信赖度和准确度的要求，并评估用户使用过程中是否会感到不适。在很多场景中，用户希望与人类进行交互，特别是客服场景中，用户可能不愿意与 AI 客服对话，主要是因为之前的智能体验不好，或者他们更倾向于与人互动。此外，还需要考虑法律和隐私风险。

栾剑：虽然大模型的算力要求在不断降低，但与传统 AI、模板驱动的系统或小模型相比，其服务成本仍然较高。这使得一些公司和行业在引入 AI Agent 时，面临着算力、内存等资源上的挑战。在这种情况下，如何利用有限的资源来实现更高的应用价值，并突破普通 Agent 的能力瓶颈？

柯杰：我之前看到面壁智能提到一个“面壁定律”，这与早期的摩尔定律相似。摩尔定律讲的是 CPU 的计算能力每 18 个月翻一倍，而面壁定律则指出，大模型的知识密度也会在短时间内提升，甚至不需要 18 个月。实际上，现在很多小模型已经能够在手机上取得非常好的效果，我认为这个问题会很快得到解决。

目前，很多大模型的潜力尚未完全挖掘出来。虽然大模型存在缺陷和短板，但从应用开发的角度来看，大模型的能力已经足够应对大多数场景。就像电力一样，虽然电力紧张，但对于大模型的应用来说，其所需的电力是足够的。我对未来很乐观，认为大模型的性能将会急剧提升，并且未来许多小模型将能够在端侧解决更多问题。因此，我并不感到焦虑，问题并不像看起来那么严重。

李飞：突然想到或许还有一个“价格定律”，随着基础设施价格的降低，ToB 客户越来越关注设备成本，特别是做私有化部署的客户。如果某个场景的 ROI 无法覆盖高昂的设备成本，落地就变得困难。

在国内，客户在采购软件时通常比较保守，偏向于私有化部署。这与国外市场不同，国外最初也做私有化，但由于成本过高才转向 SaaS 模式。国内客户接受 SaaS 的速度较慢，因为他们没有经历过私有化部署的转变。

此外，很多客户坚持私有化是因为数据安全的考虑，但并非所有数据都需要完全私有化，部分非敏感数据可以出库。关键在于评估哪些数据需要私有化，哪些可以外部处理。

随着大模型的发展，客户的观念也在转变，不再单纯要求私有化，而是考虑采用 SaaS 模式，尤其是面对高算力成本时。大模型的 API 也可视为 SaaS 的一种形式，未来可能会促进国内 SaaS 模式的进一步发展。

邹盼湘：在中国，SaaS 的推广存在文化障碍。中国人倾向于购买能“看得见、摸得着”的东西，而 SaaS 服务是虚拟的，可能在没有续费的情况下消失。因此，许多企业在做立项时更愿意选择私有化部署，而非 SaaS。尤其在向集团汇报时，他们更看重“实体化”资产，而非过程中能力的沉淀。

此外，大模型在落地时仍面临挑战，尽管算力不断提升、价格下降，当前的大模型效果还未达到预期。随着技术的不断发展，许多问题会逐步解决。短期内，我们需要补充大模型的不足，特别是在性能、可控性和“幻觉”问题上。

为了应对这些问题，我们常常减少大模型的处理量，使用小模型或传统方法来控制成本并提高性能。即使大模型变得智能，它仍然无法解决私域数据和业务流程的问题。私域数据随着时间变化不断积累，大模型无法实时获取并处理这些数据。同时，业务流程和系统因公司不同而各异，模型无法完全取代这些差异化的系统。

从长远来看，我们的目标是如何高效地将私域数据和业务流程链接起来。我们正在开发一个名为 Aibox 的大模型应用平台，旨在解决大模型的不可控性和性能问题，并实现多模态数据与业务系统的高效连接。

栾剑：总结一下，资源有限的情况下，我们不必过于担心 AI 的应用可能出现问题。首先，模型的能力在不断增强。两年前推出的 ChatGPT 是一个千亿参数的大模型，而现在即便是一个 7B 模型，也能超越当时的效果。这表明模型的参数可以大幅压缩，依然保持良好的性能。

我们小米在端侧大模型的研究中，已验证这一趋势：在效果基本保持不变的情况下，模型规模越来越小，服务成本越来越低。同时，随着更多优秀的工程师关注这一领域，从硬件到软件都在加速推理的优化，我们看到大模型服务的价格最近一年显著下降，甚至国内大模型服务的价格下调还带动了海外。

最后，很多时候我们不必依赖庞大的模型才能取得良好效果。通过有效利用私域数据并精准描述场景任务，许多应用可以在小模型下实现低成本、高效推理。

观众：我是一名 TCL 初级 Agent 开发者，企业中很多人认为 AI Agent 无所不能，可以一键控制很多东西，但真正落地完发现它其实碌碌无为。应该怎么应对这种大模型落地之后的差距问题？

邹盼湘：就像在与客户沟通时，我们发现客户对 AI 的理解往往存在误区，以为 AI 无所不能。例如，在某个客户开发的营销助手项目中，客户最初只希望推荐饮品，但很快提出了更多需求，包括根据天气推荐饮品、提供天气查询、推荐周边餐厅等。

虽然这些问题超出了我们最初的预期，但客户认为这些都属于“助手”应答的范畴，因此我们逐步为系统增加了天气插件、定位功能和商户信息。随着需求不断升级，客户还提出了关于运营活动和折扣券的推荐，这些问题更复杂，但客户依然认为它们是知识问答的一部分。

为避免类似问题重复出现，我们在后续项目中将流程进行了详细拆解，明确哪些问题由模型解决，哪些需要提示工程、模型微调或知识库对接。我们要求客户在提需求时明确功能边界，并清楚了解每项需求的预期效果，避免模糊需求导致项目实施困难。同时，我们也提前向客户说明可能遇到的挑战，如第三方 API 对接问题，并提供应对措施。通过这种方式，我们有效地管理了客户期望，确保项目顺利进行。

李飞：正确地管理预期，尤其是在交付过程中，是至关重要的。对于老板的预期，也需要提前框定合理的范围并逐步满足。有时候，老板的要求可能是愿景，虽然无法完全实现，但我们需要理解并努力朝这个方向前进。

柯杰：当老板愿意一步一步分析问题时，复杂的挑战也能被逐步解决。例如，提升人效看似难以回答，但如果将问题具体化，分析员工时间消耗，找出可以优化的部分，这就变得可行。同理，虽然当前的大模型技术并非万能，但通过合理拆解问题，我们能在可行的范围内解决问题。

其次，我们不可能直接拒绝老板的需求。我们需要告诉老板哪些问题是可以解决的，哪些是目前无法实现的。一个简单的判断标准是，哪些是人类能做到的，哪些是人类做不到的。如果人类做不到的事情，大模型也很难做到；反之，如果人类能做到的，我们就可以努力去实现。

例如，在阿里园区，有个功能可以通过语音控制开关灯，这看似简单，但实际上需要先进行数字化建设，将工位和灯具建立关联。这个过程虽然需要时间，但通过数字化积累后，就能实现这种控制。

栾剑：在引入大模型之前，我们需要进行一场“启蒙运动”，将员工和老板的热情调动起来，让大家理解并拥抱 AI 技术。这样才能为未来的技术变革奠定基础。然而，一旦大模型开始应用，则需要进行“反启蒙运动”，告知大家 AI 目前的能力范围，设定合理预期。

此外，大众对 AI 能力的理解有很大误区。普通人觉得人类很容易做到的事情 AI 就应该能做，人类很难做到的事情对 AI 应该也很难。但事实上，真不一定。AI 能在一些人类难以完成的任务上表现出色。举个例子，打乱扑克牌后，人类很难记住牌的顺序，但 AI 可以轻松记住甚至多副扑克牌的顺序。类似地，AI 能够处理极大数量的上下文信息，这在人类中是做不到的。但另一方面，一些对人类很简单的推理对 AI 可能很难。

因此，我们需要通过好的类比向公众，尤其是老板，解释 AI 的能力及其局限性。这样，他们才能更好地理解 AI 能做什么，不能做什么，背后的原因是什么。

栾剑：在未来，最理想或者说最终极的情况下，人和 AI Agent 会以什么样的形态进行互动？人和 AI 会是什么样的协同方式？

邹盼湘：一个智能体应该像是我们的助理或伙伴。人类交流可以分为两类问题：事实类问题（如“现在是什么时候？”）和认知类问题（如“你怎么看这件事？”）。在与 AI 的交互中，我们也会遇到类似的两类意图：明确意图和模糊意图。

模糊意图是指用户提出的问题不够明确，例如“帮我做个事”，这个时候 AI 需要通过提问逐步明确用户的需求。例如，用户要求“帮我定个出差申请”，AI 会进一步询问目的地、出差日期等信息，从而将模糊的问题转化为具体任务。明确意图则可以分为单一意图和多任务意图。

例如，单一意图可能是“捡起地上的水瓶”，而多任务意图可能是“从某人那里取某样东西并快递给别人”。这些任务之间有依赖关系，AI 需要正确识别并处理这些任务。

对于明确的任务，我们把任务定义为“语义事件”，每个事件有相应的参数。比如在工作流中，某些节点可能会需要特定的变量来执行任务。与人类交互不同，AI 不会一开始就问所有问题，而是逐步获取所需信息。例如，在订出差机票时，AI 首先询问出发地和目的地，之后根据具体情况再询问其他信息。

另一个挑战是在任务切换时的处理。假设用户先要求订票，然后突然收到消息要取消行程并订餐。这时 AI 应该能理解并切换任务，而不是重新询问用户已提供过的信息，如身份证号或电话等。当前，大模型在切换任务时常常需要重复获取用户信息，这使得体验不够流畅。

我们正在聚焦于如何改进 AI 的意图识别，尤其是在单一意图、模糊意图、多任务意图的识别过程中，以及如何解决任务切换、恢复和跳转的问题，这些都是提升人机交互体验的重要方面。

李飞：这个问题很有趣，我觉得可以从两种形态来讨论：交互形态和系统形态。

从交互形态来看，未来的 AI 不会像现在的聊天机器人那样简单。例如，在电影《钢铁侠》和《蜘蛛侠》中的贾维斯和伊迪斯，它们虽然是工具，但具备高度智能，可以直观地为我服务。另一种形态像《机器纪元》中展现的具身智能机器人，它们是明确的机器人，但能有效地帮助我完成任务。还有一种可能是像《终结者》中的机器人，外观和人类一样，完全不显得是机器。

从系统形态来看，之前《思考，快与慢》这本书引起了讨论，DeepMind 也发表过相关论文，探讨了系统架构的“快与慢”。它提出将系统分为前端的“talker”和后端的“reasoner”，这可能是未来系统架构的发展方向。

柯杰：我讲一下我理解的三种形态。第一种是尊重现有用户习惯的 AI 整合形态。我们可以在现有产品中融入 AI 技术，通过 AI Agent 来优化和构建流程，这种方式尊重用户的使用习惯，能够帮助用户快速适应并提升体验。

第二种形态是打破信息孤岛。在过去的移动互联网时代，信息被分割成了多个孤岛，每个 APP 都有自己的闭环。但随着 AI 多模态技术和大模型的发展，我们有了打破这些孤岛的机会。平台如钉钉、微信等正在推动信息互通，这种开放性使得 AI 不再局限于单一场景，而是可以在更多地方为用户提供服务。

第三种形态则关注智能化设备的进化，它不仅仅是具身智能或拟人化。未来的 AI 可能不再依赖传统的人类形态，比如机器人不一定像人一样使用手机做事，可能会有更适合的工具。例如，通过 WiFi 路由器分析信号波动来感知家中老人的摔倒行为，而不需要依赖摄像头来避免隐私问题。这种智能化技术的进步，将会为我们的生活带来更多便捷和安全，使 AI 技术的发展朝着更加实际和无缝集成的方向前进。

头条号入驻

InfoQ 有内容的技术社区媒体

财经自媒体联盟更多自媒体作者

今日推荐优秀作者看点月榜

新浪财经头条意见反馈留言板

4000520066 欢迎批评指正

资源有限，如何构建高效能的 AI Agent

头条号入驻

谷歌将空间内存安全功能“改造”到 C++上

2024 云数据库年度总结

7 亿意外之财砸中 150 个打工人？英伟达花重金收购 MLOps 平台，到手就大方开源了！

财经自媒体联盟更多自媒体作者

热文排行榜