注册

新浪财经APP

Salesforce 最新研究：LLM 智能体 CRM 测试成功率低至 35%，保密意识还低，企业敢用吗？

Salesforce 最新研究：LLM 智能体 CRM 测试成功率低至 35%，保密意识还低，企业敢用吗？

2025年06月19日 20:32 InfoQ

语音播报缩小字体放大字体微博微信 0

整理 | 华卫

学术界开发的一项新基准测试显示，基于大型语言模型（LLM）的 AI 智能体在标准客户关系管理（CRM）测试中表现欠佳，且未能理解客户信息保密的必要性。

由 Salesforce AI 研究员黄 Kung-Hsiang 领导的团队通过依赖合成数据的新基准测试表明，LLM 智能体在无需后续操作或额外信息的单步任务中，成功率约为 58%。而使用基准工具 CRMArena-Pro 的测试进一步显示，当任务需要多步骤完成时，LLM 智能体的成功率骤降至 35%。

另一项值得关注的问题在于 LLM 智能体对机密信息的处理。上月末发表的一篇论文指出：“智能体的保密意识较低，尽管可通过针对性提示改善，但往往会对任务执行产生负面影响。”

Salesforce AI 研究团队认为，现有基准测试未能严格衡量 AI 智能体的能力或局限，且在很大程度上忽视了对其识别敏感信息及遵守数据处理规范能力的评估。

该研究团队的 CRMArena-Pro 工具通过输入真实合成数据的管道来填充 Salesforce 组织，构建沙盒环境。智能体接收用户查询后，需决定是调用 API 接口，还是回复用户以获取更多信息或直接提供答案。

论文提到：“这些发现表明，当前 LLM 的能力与现实企业场景的多维度需求之间存在显著差距。”这一结论可能令 LLM 驱动的 AI 智能体的开发者和用户均感担忧。Salesforce 联合创始人兼首席执行官马克·贝尼奥夫（Marc Benioff）去年曾向投资者表示，AI 智能体对这家 SaaS CRM 供应商而言是“高利润率机遇”，因为客户通过使用 AI 智能体提升员工效率，企业可从中分享收益。

此外，英国政府称将通过数字化和效率提升计划，目标在 2029 年前节省 138 亿英镑（187 亿美元），这一计划部分依赖 AI 智能体的应用。

尽管 AI 智能体可能颇具价值，但各组织在验证其实际效益前，仍需谨慎看待对其带来的收益预期。

0条评论|0人参与网友评论

分享到微博

最热评论

最新评论

更多精彩评论>>

头条号入驻

InfoQ 有内容的技术社区媒体

财经自媒体联盟更多自媒体作者

今日推荐优秀作者看点月榜

新浪财经头条意见反馈留言板

4000520066 欢迎批评指正

关于头条 | 如何入驻 | 发稿平台 | 奖励机制版权声明 | 用户协议 | 帮助中心

Copyright © 1996-2019 SINA Corporation
All Rights Reserved 新浪公司版权所有

新浪首页语音播报返回顶部