生成式智能与任务执行智能,是两种路线目标。
作者丨朱可轩
历时两天(12.10-12.11),今年的 2024 全球人工智能产品应用博览会已在苏州工业园区完美闭幕。
在第一天下午的大会主论坛中,思必驰联合创始人、首席科学家俞凯以「迈向分布式大模型智能体系统」为主题,深入探讨了思必驰在大模型技术路线上的独到思考,以及其对行业的观察和见解。
「分布式大模型智能体系统」是思必驰在深耕对话式人工智能领域十七年后探索出的新发展方向,即:1 个中枢大模型+ N 个垂域模型及全链路交互组件组成全功能系统。
当前,国内许多大模型厂商都跟随 OpenAI 的技术方向,将超级智能作为发力重点。
但俞凯认为,「OpenAI 这一类厂商以单一的、集中式的超级智能为目标去建设大模型,某种意义上是在造一个全知全能的神,在引领技术前沿上有划时代的重要作用;但在 2B 真实场景落地中,这个技术路线遇到了很多的问题,包括实时私域知识缺乏、专业领域能力欠缺、可靠执行能力不足和系统协作架构缺失等。」
区别于此,思必驰选择的技术路径类似于打造一个公司,从 CEO 到 CFO 、CTO 等都各司其职。其中,CEO 是中枢大模型,CFO 、CTO 等是垂域大/小模型,在这之中并不需要每一个大模型都是超级智能,它们是分布式的,核心的系统目标主要是可靠的任务执行。
现阶段生成式大模型都面临难解的“幻觉”问题,AI 还无法知晓自身的知识边界何在,而俞凯反复强调的可靠的执行智能所解决的问题便恰好在于此。
除此之外,俞凯还向 AI 科技评论介绍道,「智能体系统和大模型不一样,大模型或单一智能体现在只强调一个功能模块的输入和输出,最终的用户体验不一定好。而“智能体系统”则考虑多个不同的全链路功能模块组合,强调能组成有机整体,从整个系统层面给用户的交互体验会更好。」
不过,这些对行业的洞察也是在不断摸索试错后,俞凯和团队才逐步明晰的。成立以来,思必驰在找准自身定位的过程中也遇到过诸多技术难题:
从刚开始只想去提升识别率,到后来开始思考降低成本,再之后又面临了软件易复制、智能硬件没做过的难题,而全链路智能语音交互系统、大规模可定制也都存在着诸多需要攻关的技术难点......
以下是 AI 科技评论与俞凯的访谈实录,作者进行了不改原意的编辑整理:
1
构建分布式大模型智能体系统
AI 科技评论:可以简单介绍一下你们的大模型技术路线吗?
俞凯:我们一直把 ChatGPT 类的大模型叫做对话式人工智能、对话式语言计算。OpenAI 实际上是从预训练语言模型发展起来的,而思必驰是从一个完整的端到端对话系统发展起来的,一直以多轮交互为核心,不断迭代出现在的大语言模型。所以虽然殊途同归,但实际上我们有自己独特的发展轨迹。
思必驰 DFM 语言大模型是自主的技术研发路线逐渐形成的语言大模型。长期持续开展对话式语言大模型自研的其实不多,可能 2023 年之后讲得比较多, 2023 年之前很少,DFM 是 2022 年初正式对外发布的,而发布之前内部就已经在用了,是真正意义上的独立研发。
AI 科技评论:你们和 OpenAI 技术路径的区别具体体现在何处?
俞凯:OpenAI 这一类厂商是以超级智能为目标去建设单一集中式语言大模型,某种意义上是在造一个全知全能的神,它擅长创作和回答问题,并且可以生成多样性的回复。但这条技术路线在面向严肃的任务执行场景时遇到了许多问题,包括实时私域知识缺乏、专业领域能力欠缺、可靠执行能力不足和系统协作架构缺失等。
与之对比,我们的技术路线是构建 1+N 的分布式大模型智能体系统,这个「1」是中枢大模型,相当于大脑,「N」就是不同的垂域模型,大模型、小模型都有,它们都可以是智能体,然后又是分布式的。
这种模式类似于公司的组织架构,其中,CEO 是中枢大模型,CFO 、CTO 等是垂域大/小模型,从 CEO 到 CFO 、CTO 等都各司其职,在这之中并不需要每一个大模型都是超级智能,甚至所有的都不是超级智能体,这是思必驰跟 OpenAI 在技术路线上很关键的不同。
根据我们以往的产业实践,在实际大多数业务场景中,能够可靠地执行任务是最重要的,这类场景中的大模型本身不需要超级大,没有必要不计成本的去堆算力,而是需要许多平常的通用智能体,这些通用智能体具备和人进行交互的能力,当然通用智能体之间也可以互相交互。
AI 科技评论:所以你们的优势在于可靠的任务执行。
俞凯:对。现在国内外比较火的一些大模型很多是以内容创作生成为核心,但思必驰主要关注的是以工具使用能力为主的执行智能。
二者的侧重点不同,生成式强调的是创造性、多样性、流利性,本质是丰富;执行强调的是不出错、可靠。现在大模型有各种各样的“幻觉”,思必驰 1+N 的体系会对执行任务的质量进行保障,乃至于用一些创新的技术思路重新去定义可靠性。
举个例子,我问 10 个问题,你能答对 6 个,其余 4 个你不知道,但是也胡乱作答了;他能答对 5 个,其余 5 个他说不知道,要去问专家。这种情况下,他可能更可靠。一些大模型其实不清楚自己的知识边界在哪,不懂得拒绝。
思必驰在车载系统里着重强调的拒识能力,就是「我不是在跟你说话,你不要回答我」。总的来讲,思必驰的立足点就是可靠执行。其实,思必驰的大模型也可以用来写小作文、诗歌等,在现阶段,这些不是我们的核心出发点。
AI 科技评论:为什么你们今年一直在强调智能体系统这个概念?
俞凯:加了“系统”两个字之后,与大模型就不一样了。大模型现在讲的基本都是语言大模型,即使是一般意义的多模态大模型往往讲的也是一个软件、一个算法、一个程序,你有一个输入,它(模型)有一个输出。但如若只强调输入、输出文字,最终的用户体验不一定好。
我们强调的“系统”是要考虑多个不同的全链路系统组合,不单单只是智能体,有的可能包括模型,非模型的还有软硬件协同的问题,大模型实际上是“人的大脑”,除此之外还要让它有嘴巴、眼睛、耳朵等,这些要与大脑紧密结合,组成一个有机整体,给用户的交互体验会更好,这一点很重要。
举个例子,我说一句话,如果大模型一秒钟之后才反应,那就很慢了,怎么在零点几秒作出反应,还要满足高度可靠的快速定制需求,这就要在系统层面去实现。
做这套体系时,思必驰用分布式的方法将参数规模千亿、百亿、十亿等全尺度的大模型结合在一起,形成具备工具智能的可靠系统,这样才能实现更高的可靠性与产业落地。
2
投身 AI 创业,贵在长期坚持
AI 科技评论:思必驰成立于 2007 年,创业十七年了,您的这些技术思想是一开始就这么坚定吗?
俞凯:坚持是一件特别不容易的事,尤其对于处于萌芽时期的事物。我们刚开始做人工智能时,这个领域还没有像现在这样倍受重视,我们当时给公司起名叫「AISPEECH」,就是决心要把这件事做好,现在国家商标局已经不允许把 AI 放在前头了。(笑)
AI 科技评论:可以分享一下对于您来讲,你们经历了哪些关键性的转折点吗?
俞凯:我在英国待了十年,在剑桥的时候,前五年做语音识别,后五年做对话系统,2012 年我回到国内,思必驰正式开启了对话式人工智能的篇章。与此同时,我也把数据驱动的对话式语言计算从国外引到了国内,那个时候还不是现在的深度学习,而是早期的贝叶斯学习。那时开始做对话式人工智能,也就是现在大家所看到的语言计算的基础平台。
在 2014 年 10 月的 CES 电子展上, Amazon 的 Echo 一炮打响,人工智能的硬件载体由手机转换到智能硬件,思必驰开始从“软件交互”转向“智能硬件交互”。这个方向技术难度更大,并且一定程度上区别于仅在云端去做一般意义的语义处理,实际上,单一功能的云端 API 调用也很容易被复制。
2017 年,思必驰又有比较大的变化。当时,我们发现软硬件结合的方向非常好,中国的物联网硬件设备千奇百怪,需要各种各样的定制,我们开始研发一系列技术,专注 AI 领域的柔性制造,即把对话系统的模块任意组合,提升在垂域上的性能,快速进行个性化修改,这是大规模、可定制的对话系统,也就是思必驰 DUI 开放平台(Dialogue User Interface)。
AI 科技评论:你们真正开始切入大模型具体是在什么时候呢?
俞凯:2019 年。纵观公司的发展历程,思必驰于 2013 年研发出对话工场实现全链路闭环;2015 年 AIOS 系统实现软硬件协同的云端一体,至此对话系统正式开始面向智能硬件;2017 年通过全链路智能对话定制平台(即 DUI 平台)实现大规模可定制的柔性人工智能;2019 年有了通用对话式语言模型研发。
此后,思必驰语言大模型 DFM 进入深度研发阶段,2021 年发布了第一个版本。2023 年 7 月,思必驰 DFM-2 大模型发布,通过 DFM-2 实现通用人工智能的柔性定制,可以开展大规模、高质量、个性化的人工智能系统定制,既满足客户个性化的需求,又可以大大提升软硬件产品的“非标交付”效率。现在思必驰在这个基础上进一步研发分布式大模型智能体系统。
AI 科技评论:这么多次转变的背后,你们应该遇到过不少困难,都是怎么解决的?
俞凯:当然。全链路的智能对话系统是思必驰的一大优势,它的构建是第一个难题。
早先我们做语音识别技术,并在美国的比赛中取得了国际领先的成绩,但这并不意味着仅凭此项技术就能赚钱了,当时碰到的困难是,就算技术再强也有误差,没听说有谁的识别准确率是 100%。因此,当用户无法完成任务时,思必驰就必须提供完整的方案,单纯的算法优化并不能解决实际问题,必须将其整合到一个完整的对话系统中。
后来遇到的问题是软件产品容易被复制,思必驰在技术上比较强,也需要把技术转化成有效性、成本等优势,虽然软件也能形成系统,但是偏工具型,所以不能纯靠软件,思必驰要从智能硬件角度切入。
面向智能硬件也遇到了困难,在这个过程中要把没有学过的知识,通过学习转化成自己的东西,然后落地实践。硬件要做嵌入式,就得把它做小,做到芯片里......这些都是需要解决的技术难点。
再往后,思必驰要做大规模定制化,于是我们就开始就拆,对话系统拆了要能再接起来,接起来的时候还要能保障端到端的响应速度是业界领先,思必驰是业界最早把端到端的响应速度做到 1 秒以内的,后来有些人跟进了。这需要从真实的场景当中提炼问题,并通过算法、工程手段和系统架构设计来解决。
3
警惕「拿着锤子找钉子」
AI 科技评论:DFM-2 大模型是去年 7 月升级的最新版,今年有进行技术迭代吗?
俞凯:今年我们进行了很多迭代,都已经融合到产品中了,简单说就是闷头把事给干了,沿着之前做的事往上叠加大模型能力。
AI 科技评论:你们目前主要在哪些场景中落地呢?
俞凯:主要是两个方面,一是推垂域模型,二是推到产品里。
今年比较大的落地场景是智能汽车,除此之外有智能家居、消费电子等,还有政府机构、智能制造、科研等一些场景。
AI 科技评论:现在其实市面上许多大模型厂商都没办法找到真正的落地场景,所以可以看到最近大模型又有些冷下来了。您觉得这是现阶段大家最大的困境吗?
俞凯:是的,现在大模型厂商面临的最大挑战就是商业化落地场景。实际上我们做大模型,是先有端到端对话式系统的应用,然后叠加大模型,先有场景,大模型是嵌入到系统里的。很多大模型厂商现在是拿着“锤子”找“钉子”,而我们有一排“钉子”,用不用这一个“锤子”不一定,因为可能还有另外其他的“锤子”更适合。
现在许多 2C 场景都被互联网厂商垄断了,例如:以多样化文字生成、多模态生成为主的大模型最大的应用场景是内容创作,被抖音、快手等平台垄断;人机交互知识问答这种偏知识检索场景被搜索引擎厂商垄断;纯问答场景被电商垄断;还有其他小的场景,但是没办法撑起动辄几十个亿的投入。如何突围是技术型大模型厂商面临的巨大挑战。
如果往 2B 和智能硬件领域发力,就需要系统。这当中,系统和完整的解决方案是否可靠,是不是可以定制化、规模化是核心问题,这是很多纯算法厂商不擅长的。要积累的话往往也需要很长时间,因为这些核心问题同技术的先进程度有的有关、有的无关,思必驰也是摸索了这么多年才能有今天的积累。
另外,科研方向是有前途的,但偏学术而非产业,或者说是长期方向,短期之内的产业回报不会特别大。
总之,现在的大模型厂商面临着商业化应用场景选择的挑战,据我观察,目前一种破局的方式是往国外“卷”,因为 API 付费这种模式在国外的机会可能大一些 。同时,很多应用场景其实很鸡肋,对厂商来讲有些“食之无味,弃之可惜”,这也是难点。
AI 科技评论:你们做硬件的话,像汽车、办公本这些也都和端侧结合很紧密,现在也有一些大模型厂商想去切端侧,不过手机厂商也都在自己自研端侧模型了。我刚也有听您提到思必驰在做小模型,是指端侧模型吗?
俞凯:思必驰的模型云侧和端侧都有,主要就是一些垂域模型。我认为未来端侧模型一定是个重要方向,但还是要想清楚用它来干什么,有些厂商把文生图都叫端侧模型,这不是通用智能的角度。
通用智能是以端侧语言模型为核心,同时要将任务链路有效整合,有些手机厂商走得比较靠前,但是是产品层面的靠前,基础技术上还有很长的路要走,我们正在与合作伙伴积极推进这一领域的发展,可以期待一下。
AI 科技评论:聊了这么多,那现在有没有厂商和您的想法比较类似呢?你们的差异化优势又体现在哪方面?
俞凯:思必驰的首要优势肯定是技术优势,在算法和系统结合上的优势。经过这么多次的技术迭代,在 know-how 也就是所谓的关键节点的技巧上,这些方面的积累我们也有优势。
第二就是智能硬件,思必驰作为早期参与者之一,至今依然活跃在市场中,这样的企业在国内并不多,可能只有两三家。长时间的行业深耕使我们积累了宝贵的资源,成为我们的一大竞争优势。极少有厂商像思必驰一样覆盖这么多品类,在家电及消费电子领域,思必驰基于智能语音交互技术和芯片,实现对各种智能产品和设备的实时控制,接入各类硬件设备数亿台,AI语音芯片出货数千万颗。此外,依托 DFM-2 大模型,思必驰推出了多款数字硬件产品,如无感扩声麦克风、可感知和交互摄像头、AI办公本等,满足了现代工作场景中的多样化需求,大幅提升了办公效率和质量。
另外,在客户方面,思必驰经过多年的积累和服务,与国内几乎所有的汽车和智能硬件厂商都有深入合作,这也形成了技术适配成熟度高、解决方案经验丰富和客户群基数大的优势。
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有