作者 | AICon 全球人工智能开发与应用大会
策划 | 李忠良
在人工智能的璀璨星河中,AI Agent 无疑是一颗耀眼的明星。自诞生之日起,它便承载着人类对自主决策和持续进化能力的追求,历经数次技术浪潮的洗礼,而今随着大模型技术的突破再次站上了风口浪尖,成为业界瞩目的焦点。甚至不少专家认为,未来 AaaS(Agent as a Service)模式或将颠覆现有的 MaaS(Model as a Service),成为主导 AI 产业的新趋势。
日前,在 AICon 全球人工智能开发与应用大会 2024 北京站 【AI Agent 技术突破与应用】 专题圆桌交流中,小米大模型负责人栾剑担任主持人,与数势科技 AI 负责人李飞、彩讯股份 AI 产研部总经理邹盼湘、钉钉智能化平台架构师柯杰,共同探讨 AI Agent 领域的最新进展和发展方向。
2025 年 4 月 10 - 12 日,QCon 全球软件开发大会(https://qcon.infoq.cn/2025/beijing/)将在北京召开,我们策划了「更智能的企业 AI 搜索实践」、「反卷 “大” 模型」、「多模态大模型及应用」等热点专题,直击行业痛点,解锁可复制的经验与模式。如果你也有相关案例想要分享,欢迎通过以下链接提交演讲申请:https://jsj.top/f/tUOLpz
部分精彩观点如下:
大模型的性能将会急剧提升。
大模型 API 可能会促进国内 SaaS 模式的进一步发展。
有效利用私域数据并精准描述场景任务,可以在小模型下实现低成本、高效推理。
大模型技术并非万能,但通过合理拆解问题,就能在可行的范围内解决问题。
改进 AI 意图识别是提升人机交互体验的重要方面。
以下内容基于现场速记整理,经 InfoQ 删减。
栾剑:如何挑选和判断适合使用 AI Agent 赋能的场景?
邹盼湘: 在选择场景时,我们主要从两个方面考虑。首先,业务流程必须要清晰,因为大模型的落地应用需要明确的业务流程。如果业务流程不清晰,模型的效果就难以达到预期。其次,我们的场景中需要有一定的数据积累,无论是业务数据还是用户行为数据。只有在这种数据积累的基础上,进行 AI 探索或初步落地,才是一个较为合适的选择。
李飞: 在落地过程中,我们发现 Agent 主要用于工作流编排。简单场景不适合用 Agent,因为任务本身简单,Agent 反而可能增加复杂性,客户等待时间过长。但对于复杂场景,涉及多环节且环节顺序灵活,Agent 也许能通过大模型规划实现编排。因此,没有一个固定答案,需根据场景找到合适的平衡点。复杂任务用预编排工作流,中等复杂度任务可以用大模型规划。
柯杰: 我们可以从三个场景来讨论。首先是“AI+”,即将 AI 与现有业务流程结合。这种方式的核心是连接当前大家已经熟悉的业务流程,让业务习惯得以保留。但实际上,很多人对于这种转变的接受度仍然较低。
其次,由于目前大模型技术还不够成熟,我们可以创建一些通用模板,在模板中替换不同的参数来生成新的工作流。例如,某个工作流可能最终会将数据收集到一个多表中,而不同的工作流只是替换了不同的多表参数。这种方法可以在一定程度上复用现有工作流,提高效率。
最后,我们的功能编排目前还是基于传统的工作流系统,这对开发框架来说仍然是一个挑战,因此目前对开发人员的要求较高。在这种情况下,我们每个人都需要理解“模型与产品匹配度”。我们需要清楚了解模型的能力和产品的需求,找到二者之间的平衡点,明确哪些任务适合模型来做,哪些需要人工介入。
栾剑: 我个人在选择场景时,首先会考虑这个场景的商业价值。我们需要判断使用 AI 后,是否能在降本增效等方面带来显著的商业价值。如果人工完成该任务已经非常高效,而引入 AI 反而增加了成本,那么可能不值得替代。
其次,要考虑技术能力。随着大模型的发展,它在自然语言理解和生成,以及视觉理解和生成方面的能力有了显著提升。如果一个任务或场景涉及这些领域,大模型可能会带来很大的收益,能够完成得更好。但对于一些大模型目前尚不擅长的任务,如复杂推理或规划能力,我们需要更加谨慎地判断是否可行。
第三,数据积累也是一个关键因素。通用大模型仅通过 Prompt 方式进行任务时,效果会受到一定限制。我们通常希望有更多场景相关的真实数据来优化模型,因此,如果场景内的数据积累较多,优化效果会更好。相反,如果数据积累不足,效果可能就会受到限制。
最后,还要做风险评估。需要考虑场景对可信赖度和准确度的要求,并评估用户使用过程中是否会感到不适。在很多场景中,用户希望与人类进行交互,特别是客服场景中,用户可能不愿意与 AI 客服对话,主要是因为之前的智能体验不好,或者他们更倾向于与人互动。此外,还需要考虑法律和隐私风险。
栾剑: 虽然大模型的算力要求在不断降低,但与传统 AI、模板驱动的系统或小模型相比,其服务成本仍然较高。这使得一些公司和行业在引入 AI Agent 时,面临着算力、内存等资源上的挑战。在这种情况下,如何利用有限的资源来实现更高的应用价值,并突破普通 Agent 的能力瓶颈?
柯杰: 我之前看到面壁智能提到一个“面壁定律”,这与早期的摩尔定律相似。摩尔定律讲的是 CPU 的计算能力每 18 个月翻一倍,而面壁定律则指出,大模型的知识密度也会在短时间内提升,甚至不需要 18 个月。实际上,现在很多小模型已经能够在手机上取得非常好的效果,我认为这个问题会很快得到解决。
目前,很多大模型的潜力尚未完全挖掘出来。虽然大模型存在缺陷和短板,但从应用开发的角度来看,大模型的能力已经足够应对大多数场景。就像电力一样,虽然电力紧张,但对于大模型的应用来说,其所需的电力是足够的。我对未来很乐观,认为大模型的性能将会急剧提升,并且未来许多小模型将能够在端侧解决更多问题。因此,我并不感到焦虑,问题并不像看起来那么严重。
李飞: 突然想到或许还有一个“价格定律”,随着基础设施价格的降低,ToB 客户越来越关注设备成本,特别是做私有化部署的客户。如果某个场景的 ROI 无法覆盖高昂的设备成本,落地就变得困难。
在国内,客户在采购软件时通常比较保守,偏向于私有化部署。这与国外市场不同,国外最初也做私有化,但由于成本过高才转向 SaaS 模式。国内客户接受 SaaS 的速度较慢,因为他们没有经历过私有化部署的转变。
此外,很多客户坚持私有化是因为数据安全的考虑,但并非所有数据都需要完全私有化,部分非敏感数据可以出库。关键在于评估哪些数据需要私有化,哪些可以外部处理。
随着大模型的发展,客户的观念也在转变,不再单纯要求私有化,而是考虑采用 SaaS 模式,尤其是面对高算力成本时。大模型的 API 也可视为 SaaS 的一种形式,未来可能会促进国内 SaaS 模式的进一步发展。
邹盼湘: 在中国,SaaS 的推广存在文化障碍。中国人倾向于购买能“看得见、摸得着”的东西,而 SaaS 服务是虚拟的,可能在没有续费的情况下消失。因此,许多企业在做立项时更愿意选择私有化部署,而非 SaaS。尤其在向集团汇报时,他们更看重“实体化”资产,而非过程中能力的沉淀。
此外,大模型在落地时仍面临挑战,尽管算力不断提升、价格下降,当前的大模型效果还未达到预期。随着技术的不断发展,许多问题会逐步解决。短期内,我们需要补充大模型的不足,特别是在性能、可控性和“幻觉”问题上。
为了应对这些问题,我们常常减少大模型的处理量,使用小模型或传统方法来控制成本并提高性能。即使大模型变得智能,它仍然无法解决私域数据和业务流程的问题。私域数据随着时间变化不断积累,大模型无法实时获取并处理这些数据。同时,业务流程和系统因公司不同而各异,模型无法完全取代这些差异化的系统。
从长远来看,我们的目标是如何高效地将私域数据和业务流程链接起来。我们正在开发一个名为 Aibox 的大模型应用平台,旨在解决大模型的不可控性和性能问题,并实现多模态数据与业务系统的高效连接。
栾剑: 总结一下,资源有限的情况下,我们不必过于担心 AI 的应用可能出现问题。首先,模型的能力在不断增强。两年前推出的 ChatGPT 是一个千亿参数的大模型,而现在即便是一个 7B 模型,也能超越当时的效果。这表明模型的参数可以大幅压缩,依然保持良好的性能。
我们小米在端侧大模型的研究中,已验证这一趋势:在效果基本保持不变的情况下,模型规模越来越小,服务成本越来越低。同时,随着更多优秀的工程师关注这一领域,从硬件到软件都在加速推理的优化,我们看到大模型服务的价格最近一年显著下降,甚至国内大模型服务的价格下调还带动了海外。
最后,很多时候我们不必依赖庞大的模型才能取得良好效果。通过有效利用私域数据并精准描述场景任务,许多应用可以在小模型下实现低成本、高效推理。
观众: 我是一名 TCL 初级 Agent 开发者,企业中很多人认为 AI Agent 无所不能,可以一键控制很多东西,但真正落地完发现它其实碌碌无为。应该怎么应对这种大模型落地之后的差距问题?
邹盼湘: 就像在与客户沟通时,我们发现客户对 AI 的理解往往存在误区,以为 AI 无所不能。例如,在某个客户开发的营销助手项目中,客户最初只希望推荐饮品,但很快提出了更多需求,包括根据天气推荐饮品、提供天气查询、推荐周边餐厅等。
虽然这些问题超出了我们最初的预期,但客户认为这些都属于“助手”应答的范畴,因此我们逐步为系统增加了天气插件、定位功能和商户信息。随着需求不断升级,客户还提出了关于运营活动和折扣券的推荐,这些问题更复杂,但客户依然认为它们是知识问答的一部分。
为避免类似问题重复出现,我们在后续项目中将流程进行了详细拆解,明确哪些问题由模型解决,哪些需要提示工程、模型微调或知识库对接。我们要求客户在提需求时明确功能边界,并清楚了解每项需求的预期效果,避免模糊需求导致项目实施困难。同时,我们也提前向客户说明可能遇到的挑战,如第三方 API 对接问题,并提供应对措施。通过这种方式,我们有效地管理了客户期望,确保项目顺利进行。
李飞: 正确地管理预期,尤其是在交付过程中,是至关重要的。对于老板的预期,也需要提前框定合理的范围并逐步满足。有时候,老板的要求可能是愿景,虽然无法完全实现,但我们需要理解并努力朝这个方向前进。
柯杰: 当老板愿意一步一步分析问题时,复杂的挑战也能被逐步解决。例如,提升人效看似难以回答,但如果将问题具体化,分析员工时间消耗,找出可以优化的部分,这就变得可行。同理,虽然当前的大模型技术并非万能,但通过合理拆解问题,我们能在可行的范围内解决问题。
其次,我们不可能直接拒绝老板的需求。我们需要告诉老板哪些问题是可以解决的,哪些是目前无法实现的。一个简单的判断标准是,哪些是人类能做到的,哪些是人类做不到的。如果人类做不到的事情,大模型也很难做到;反之,如果人类能做到的,我们就可以努力去实现。
例如,在阿里园区,有个功能可以通过语音控制开关灯,这看似简单,但实际上需要先进行数字化建设,将工位和灯具建立关联。这个过程虽然需要时间,但通过数字化积累后,就能实现这种控制。
栾剑: 在引入大模型之前,我们需要进行一场“启蒙运动”,将员工和老板的热情调动起来,让大家理解并拥抱 AI 技术。这样才能为未来的技术变革奠定基础。然而,一旦大模型开始应用,则需要进行“反启蒙运动”,告知大家 AI 目前的能力范围,设定合理预期。
此外,大众对 AI 能力的理解有很大误区。普通人觉得人类很容易做到的事情 AI 就应该能做,人类很难做到的事情对 AI 应该也很难。但事实上,真不一定。AI 能在一些人类难以完成的任务上表现出色。举个例子,打乱扑克牌后,人类很难记住牌的顺序,但 AI 可以轻松记住甚至多副扑克牌的顺序。类似地,AI 能够处理极大数量的上下文信息,这在人类中是做不到的。但另一方面,一些对人类很简单的推理对 AI 可能很难。
因此,我们需要通过好的类比向公众,尤其是老板,解释 AI 的能力及其局限性。这样,他们才能更好地理解 AI 能做什么,不能做什么,背后的原因是什么。
栾剑:在未来,最理想或者说最终极的情况下,人和 AI Agent 会以什么样的形态进行互动?人和 AI 会是什么样的协同方式?
邹盼湘: 一个智能体应该像是我们的助理或伙伴。人类交流可以分为两类问题:事实类问题(如“现在是什么时候?”)和认知类问题(如“你怎么看这件事?”)。在与 AI 的交互中,我们也会遇到类似的两类意图:明确意图和模糊意图。
模糊意图是指用户提出的问题不够明确,例如“帮我做个事”,这个时候 AI 需要通过提问逐步明确用户的需求。例如,用户要求“帮我定个出差申请”,AI 会进一步询问目的地、出差日期等信息,从而将模糊的问题转化为具体任务。明确意图则可以分为单一意图和多任务意图。
例如,单一意图可能是“捡起地上的水瓶”,而多任务意图可能是“从某人那里取某样东西并快递给别人”。这些任务之间有依赖关系,AI 需要正确识别并处理这些任务。
对于明确的任务,我们把任务定义为“语义事件”,每个事件有相应的参数。比如在工作流中,某些节点可能会需要特定的变量来执行任务。与人类交互不同,AI 不会一开始就问所有问题,而是逐步获取所需信息。例如,在订出差机票时,AI 首先询问出发地和目的地,之后根据具体情况再询问其他信息。
另一个挑战是在任务切换时的处理。假设用户先要求订票,然后突然收到消息要取消行程并订餐。这时 AI 应该能理解并切换任务,而不是重新询问用户已提供过的信息,如身份证号或电话等。当前,大模型在切换任务时常常需要重复获取用户信息,这使得体验不够流畅。
我们正在聚焦于如何改进 AI 的意图识别,尤其是在单一意图、模糊意图、多任务意图的识别过程中,以及如何解决任务切换、恢复和跳转的问题,这些都是提升人机交互体验的重要方面。
李飞: 这个问题很有趣,我觉得可以从两种形态来讨论:交互形态和系统形态。
从交互形态来看,未来的 AI 不会像现在的聊天机器人那样简单。例如,在电影《钢铁侠》和《蜘蛛侠》中的贾维斯和伊迪斯,它们虽然是工具,但具备高度智能,可以直观地为我服务。另一种形态像《机器纪元》中展现的具身智能机器人,它们是明确的机器人,但能有效地帮助我完成任务。还有一种可能是像《终结者》中的机器人,外观和人类一样,完全不显得是机器。
从系统形态来看,之前《思考,快与慢》这本书引起了讨论,DeepMind 也发表过相关论文,探讨了系统架构的“快与慢”。它提出将系统分为前端的“talker”和后端的“reasoner”,这可能是未来系统架构的发展方向。
柯杰: 我讲一下我理解的三种形态。第一种是尊重现有用户习惯的 AI 整合形态。我们可以在现有产品中融入 AI 技术,通过 AI Agent 来优化和构建流程,这种方式尊重用户的使用习惯,能够帮助用户快速适应并提升体验。
第二种形态是打破信息孤岛。在过去的移动互联网时代,信息被分割成了多个孤岛,每个 APP 都有自己的闭环。但随着 AI 多模态技术和大模型的发展,我们有了打破这些孤岛的机会。平台如钉钉、微信等正在推动信息互通,这种开放性使得 AI 不再局限于单一场景,而是可以在更多地方为用户提供服务。
第三种形态则关注智能化设备的进化,它不仅仅是具身智能或拟人化。未来的 AI 可能不再依赖传统的人类形态,比如机器人不一定像人一样使用手机做事,可能会有更适合的工具。例如,通过 WiFi 路由器分析信号波动来感知家中老人的摔倒行为,而不需要依赖摄像头来避免隐私问题。这种智能化技术的进步,将会为我们的生活带来更多便捷和安全,使 AI 技术的发展朝着更加实际和无缝集成的方向前进。
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有