垂类场景交互体验升级 AI如何迭代认知决策水平？_

本报记者蒋牧云何莎莎乌镇北京报道

推动AI技术从“生根发芽”到“开花结果”，正在成为行业机构的突破目标。

近期，多家科技厂商争相从AI点咖啡切入，为人们提供更加接近生活且更具实用性的服务。与此同时，AI的服务场景也在逐步扩大之中。近日，《中国经营报》记者从世界互联网大会了解到，如今，人们更可以通过AI健康管家解读体检报告、通过AI文旅助手进行景区导航及景区附近餐厅导览等。

不过，记者亦在采访中了解到，当前AI垂类服务仍然在交互模式上有所欠缺。为解决这一问题，蚂蚁集团正通过知识学习、检索增强生成（RAG）的结合，使AI大模型在储备垂类场景知识的同时，更加靠近真实场景中的交互逻辑。

蚂蚁集团董事长兼CEO井贤栋在会上表示，AI带来的变革将体现在三个方面：AI会从根本上改变所有的行业，重塑产业形态和经济图景；AI会帮助人类拥有“超级能力”，解决过去无法解决的复杂问题；AI会推动机器人技术快速发展，成为人类的助手。AI让服务业即将迎来大规模个性化的时代。

具体而言，记者从大会现场了解到，基于蚂蚁集团自主研发的“认知决策智能体技术创新与应用”，支付宝正在重点打造AI健康管家、AI生活管家“支小宝”、AI金融管家“蚂小财”三款AI应用。这三款应用以医疗健康服务为例，目前支付宝已经服务了全国超过6亿的个人医保支付，为超过3600家医院提供了数字化服务。通过和浙江卫健委联合推出的“安诊儿”，提供个性化的数字陪诊服务，已经服务了超过1000家医院、超过1000万人次的患者，对老年患者以及异地就医群体尤其方便。

事实上，业内普遍的认知是，AI在垂类场景中存在领域认知能力弱、复杂推理能力差等能力短板。那么认知决策智能体技术创新应该如何补足前述短板？

蚂蚁集团图学习与知识图谱负责人张志强告诉记者，大语言模型普遍还是存在知识幻觉的问题，而金融、医疗或生活类应用场景更多是严谨行业。这类场景有较高的认识门槛，以及行业自身的严谨逻辑。因此，大模型在这类场景中的应用不仅需要学习知识，更要符合行业，并依据相应逻辑来进行交互。

张志强举例道：“当我们使用大模型的时候，往往是我们向它提问，模型给我们一个答案。而当我们真正在就医的时候，医生实际上还会向我们提问，比如具体有哪些症状，症状的开始时间等，我们希望大模型在医疗场景中的应用能够符合这一交互特性。为此，我们开源了一个基于知识图谱做的知识增强生成框架，通过检索增强生成（RAG），补充一些语言模型不知道或不清楚的知识。与此同时，以医疗或金融、政务的行业内在逻辑来约束模型，使其按逻辑进行交互，最终形成模型的‘大脑’。”

蚂蚁集团百灵大语言模型负责人周俊认为，要在垂类的场景中使用大模型，还要求大模型能够从蚂蚁集团原有的上千种工具中，调用最贴近用户需求的工具，即“手和脚”。这对于大模型而言同样是一大难点，与人类的认知方式不同，各类工具或知识是以token的形式存在于模型的认知中。当可调用工具较多时，模型要在什么时间，调用哪些具体工具，就更显困难。

“因此，我们正在通过各式各样的方法增强语言模型的函数调用能力，并在适当时也寄语模型可使用的工具，目前已经比原生模型的能力强大很多。”周俊表示。

周俊向记者表示：“以大模型点咖啡这一场景来说，看似简单的步骤背后，其实需要调用上下游的多个协作系统，不仅涉及到咖啡店的产品信息、付费信息，也涉及到外送平台的信息等。以生活服务、医疗与金融等场景为切入口，我们也在通过持续优化与调试，不断增强大模型的能力，在知识扩充的同时，也使交互更加符合行业的交互逻辑，从而增强用户的体验。”

（编辑：李晖校对：颜京宁）