人工智能体进展、存在问题及央行应用展望

人工智能体进展、存在问题及央行应用展望
2026年01月16日 16:39 金融电子化

文/中国人民银行安徽省分行 方超 梁玉 周文婷

中国人民银行宿州市分行 万巍巍

人工智能体基本情况概述

1. 人工智能体(AI Agent)是基于生成式人工智能大模型和工具调用模块的任务执行系统

智能体作为新一代人工智能技术的集成形态,本质上是能够自主感知环境、分析信息并执行任务的智能化系统。它不同于传统的聊天机器人,后者以文本生成和理解为核心,而智能体则通过融合语言模型、记忆存储、工具调用与任务规划等模块,完成以目标为导向的复杂决策与操作,构建出从“思考”到“行动”的完整闭环。

在智能体的搭建要素中,大语言模型(如GPT系列、DeepSeek等)承担认知中枢的角色,解析复杂指令并制定决策;存储系统既记录实时交互的对话上下文,也沉淀历史数据形成个性化知识库;工具调用模块则通过API连接外部资源如浏览器网页搜索、代码编译环境与文件处理器等,将抽象指令转化为可施行的具体操作;任务规划通过接受框架内指令,进行自我调整以及任务分解,最终为用户输出具体行动(如表所示)。

表 人工智能产品区别

2. 国内外智能体进展:Manus具备多任务执行能力,性能优于其他智能体

国际主流的Agent产品主要有OpenAI的Operator(通过自带浏览器独立浏览网页,能完成填写表格、订购日常用品、创建表情包等任务)、Anthropic的Computer Use(基于Claude 3.5 Sonnet模型,可订购在线电子产品),以及Google Deep Mind的Mariner(基于Gemini 2.0模型,可为用户查找酒店和航班信息),以上工具实现了从被动接收信息向主动行动的关键跨越。麻省理工科技评论将这三个产品定义为网页应用(Web App),它们实际上是通过实时识别并解析计算机屏幕来作出决策。今年2月,Open AI集成上线Deep Research模块(基于最新的o3推理模型),该公司称它是可以为用户独立工作的智能体,能够针对复杂任务在互联网上进行多步骤的研究。Deep Research标志着OpenAI团队朝着开发通用人工智能(AGI)这一更广泛目标迈出了重要一步。

3月份,国内科技公司Monica发布人工智能体产品Manus的预览内测版本。Manus能实现简历筛选、房源筛选、股票分析、旅行规划、创建教育内容、比较保险政策、供应商采购、财务报告分析、在线商店运营分析等功能,已经具备从生成内容转向执行任务的能力,其全面的工作流、清晰的交互展示界面与完整的结果输出能够带来全新的生产力。Manus在GAIA基准测试的三个难度级别上都取得了先进性能(SOTA),相对于Open AI Deep Research具有明显优势。

Manus等智能体存在的问题

1. 对当前主流智能体评述:Manus等智能体实质是多任务智能体,未达到通用型智能体阶段

Manus产品性能主要得益于其多模态融合特性与任务编排能力。基于内嵌大语言模型,Manus整合自然语言处理(NLP)、数据搜寻、文档解析、图像生成等调研工具,在预封装任务上有良好的表现。例如,Manus能准确地把财报分析任务分解为数据爬取、统计分析、图表生成、文字总结等多个子任务。但是,部分内测用户指出,Manus的任务处理工作流较为模式化,这可能源自其架构的集成预设,任务分解型的功能范畴可能不能满足开放与创新的场景需求。

Manus核心竞争力在于其任务执行系统。本质是对“大模型+工具链”的工程化封装,运行时如同一个“脚本机器人”,依靠预设的工作流调度资源完成任务。尽管Manus在宣传中强调其首款“通用AI智能体”的定位,但其仅通过调用基础模型实现功能整合,功能实现门槛不高,未形成技术壁垒。例如,Meta GPT团队在3小时内复刻出Open Manus,CAMEL-AI团队也复刻开源了OWL项目。

综上所述,从目前看,无论是国内的Manus,抑或是国外Open AI的智能体产品,还未达到通用智能体(AGI Agent)范畴,仅属于“任务分解型”智能体,其核心创新点在于采用动态工作流生成技术,但在复杂场景下的容错机制仍不足。真正的智能体必须能够自主决定任务的具体实现过程和工具使用,而不是被认为设计好的工作流程所限制。

2. 智能体应用的现存问题:模型幻觉、路径选择错误、工作效率不高

智能体作为人工智能技术的集成应用形态,其发展虽取得进展,但仍存在多维度的缺陷亟待突破。一方面,工作效率待提升。以Manus为例,主要存在模型幻觉、路径选择错误等问题,即便成功完成任务,耗时长达数小时甚至更长时间,Token消耗巨大,单一任务消耗的Token数量达百万级,且需人工接管。其原因在于Manus使用的Multiple Agent架构,通过规划代理、执行代理、验证代理的分工协作机制在独立的虚拟机运行。实质上而言,本质是三个代理功能的串联,即内部工作方式是预先设定的“工作流”。另一方面,模型幻觉问题仍然存在。作为LLM驱动的自动化工具,智能体的表现取决于其所依赖的大模型的基础能力,但也继承了大模型蕴含的输出幻觉缺陷。团队透露Manus在“幻觉控制”上做了特殊优化,但在实际使用中改善效果不显著。在股票分析中Manus会依赖单一数据源,缺乏交叉验证,在事后结论验证时可靠性不高。即使每个大模型出现幻觉比例仅为5%,但是三次串联后,最终输出的幻觉比例将接近15%的水平。

智能体在各国中央银行的应用展望

1. 人工智能在各国中央银行的应用及智能体应用设想

人工智能在各国中央银行中较为广泛的应用是模式识别与宏观经济预测。例如,印度尼西亚银行利用机器学习算法来评估外国投资者活动对汇率和货币政策的影响。较为新颖的是利用大语言模型来分析非结构化数据源,例如,马来西亚中央银行通过AI驱动的自然语言处理(NLP)模型来分析数十万篇新闻文章,从而实现更好的经济预测和需求侧分析。

国际清算银行(BIS)设想了智能体在中央银行内部使用的两种未来情景:第一种场景,将具有更大潜力的大语言模型(LLM)部署为辅助系统。在该场景中,中央银行内部部署更先进的LLM,作为辅助工具,帮助中央银行员工完成日常工作任务,这些工具的范围可以从基于中央银行文件和政策进行微调的内部聊天机器人,到专门用于处理金融数据的定制解决方案。第二种场景,部署具有自主能力的大语言模型智能体。与第一种场景的辅助功能不同,智能体可以直接使用计算机,这种能力将使更广泛的自主任务成为可能。例如,智能体可被部署在公文系统中,通过建立内部资料库,参与公文拟稿与流转;再如,对金融基础数据的全流程采集,从金融机构的数据报文校验到中央银行端的审核与汇总,智能体可以深入参与数据治理,并及时把握数据变动,生成高质量的运行报告。

2. 应对及建议

中央银行应以审慎与平衡的态度逐步构建“数据可信、决策可控、生态开放”的智能体应用体系,在提升金融监管效能的同时守住系统性风险底线。

一是完善数据治理,提供可信智能体部署环境。中央银行需建立高效的数据治理体系,构建分级分类的金融数据资源池,对支付清算、跨境交易等敏感数据实施动态脱敏与跟踪,确保数据全生命周期可追溯。同时中央银行必须坚持保密原则,借助多方安全计算技术防止智能体资源外溢,解决“内部数据不能用、外部数据不好用”的瓶颈。

二是确立智能体多头决策与人工复核机制。尽管人工智能具有“黑箱”特征和不可解释性,但中央银行仍可以部署异构智能体集群来提升决策稳健性,这种多数投票机制能降低单一模型误判风险。进一步地,中央银行需要设立监管岗位,开发人机协同决策工作台,对关键决策设置阈值触发机制:当智能体置信度过低或决策偏离历史基准时将自动触发人工干预流程。

三是促进多方协作,加强复合型人才培养。中央银行可以通过国际合作分享知识、数据与最新实践,增强中央银行集体能力;中央银行在国内打造“中央银行—高校—科技公司”创新三角,促进智能体生态良性循环。加强队伍培养,以“金融+X”为导向募集复合背景人才,在未来设置覆盖智能体规划、部署、更新、监管等全流程岗位,以人才前置捕获发展先机。

(此文刊发于《金融电子化》2025年10月下半月刊)

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部