周鸿祎:多模态是大模型发展的必经之路,与物联网结合是下一个风口|最前线

周鸿祎:多模态是大模型发展的必经之路,与物联网结合是下一个风口|最前线
2023年06月01日 22:20 36氪

36氪获悉,近日360智慧生活集团举办视觉大模型及AI硬件新品发布会。发布会中,360推出智脑·视觉大模型及多款AI硬件产品,并宣布360智慧生活正式切入SMB市场。

360方面表示,近年传统深度学习算法在安防场景中的局限性愈发突出,具体表现为算法通用、场景不通用、边端算法受限、内存受限等。对比之下,大模型有着更好的泛化能力,有望进一步突破传统算法的精度与数据局限,也能解决传统深度学习算法的数据依赖问题。

但另一方面,当前业内提及大模型,更多指的是大语言模型,其他模态的大模型数量不多。360认为,增强多模态能力,核心要借助大语言模型的认知、推理、决策能力。

于是,此次360智慧生活决定将视觉感知能力与360智脑大语言模型相结合,并针对安防场景进行行业数据微调,推出视觉及多模态大模型——360智脑·视觉大模型。360视觉云业务线总经理孙浩对外介绍,360智脑·视觉大模型现阶段主要聚焦开放目标检测(OVD)、图像标题生成、视觉问答(VQA)三项能力。

会议中,360集团创始人周鸿祎也针对这一话题发表演讲。

周鸿祎表示,过去的人工智能是弱人工智能,在此基础上打造的智能硬件不具有真正的智能。大模型出现后,计算机第一次真正的理解这个世界,并能够赋予AIoT真正的智能。

谈及视觉大模型的研发过程,周鸿祎进一步介绍,360是在视觉感知能力基础上,融合千亿参数“360智脑”大模型,基于十亿级互联网图文数据进行清洗训练,并针对安防场景百万级行业数据进行微调,最终推出360智脑-视觉大模型。

 “大模型将带来一场新工业革命”,周鸿祎表示,所有软件、APP、网站,所有行业都值得用大模型进行重塑,而智能硬件是硬件化的APP。从大模型的发展趋势来看,多模态是大模型发展的必经之路,GPT-4最重要的变化是拥有了多模态的处理能力。因此,周鸿祎预测,多模态大模型与物联网的结合将会成为下一个风口。

以下是周鸿祎演讲内容(经部分删减),供读者参考:

大家好,很高兴今天来参加视觉大模型的发布。

今天主要想分享一下,现在正火热的大模型和智能硬件的结合。很多人肯定很奇怪,360已经有了360智脑,就是360的大语言模型,为什么又出来一个视觉大模型呢?我还是先分享几个我对大模型和生成式AI的观点。

其实AIoT这个概念已经不新鲜了,这个行业所有做智能硬件的人都会标榜,我不仅仅是物联网设备,都是AIoT,这个A就是AI。但是我们今天谈到的AIoT的概念,可能要重新刷新过去旧的AIoT的概念。

实际上生成式AI,或者叫ChatGPT的出现,预示着一个真正的人工智能,或者叫强人工智能,或者叫超级人工智能的拐点真正产生了。原来的AIoT,跟它聊两句天就聊不下去了,很多音箱的功能最后就没有人去用了,很多摄像头的能力也只是起到一个事后录像的作用。

那么,这次大语言模型的问世,标榜着一个真正的人工智能时代的来临。我觉得有两个分水岭:

第一,过去我们做的人工智能都是垂直人工智能,为完成一个特定的任务就得有一套特定的算法,一个特定的模型,很难通用。而这次大语言模型它用一套算法,一套模型结构,一套训练的思路,解决了人工智能中很多过去很碎片化的问题。

第二,还有一个区别,这次大语言模型虽然也容易给大家一个误解,好像是只能解决语言的问题。但是,在人工智能领域,如果把语言的问题给解决了,这件事是非常了不起的,是皇冠上的明珠。人类的语言基本上定义了人类所有的知识,如果一个大语言模型能够真正地理解人类所有的语言,能够很自然的做出各种交流和理解,包括各种推理,就意味着它第一次完整把人类世界的知识有了一个充分理解。

原来比如最常见的图像识别,名词叫Computer  vision,就是CV,或者计算机视觉。实际上很多时候是在工作层面感知,像人的视网膜的原理。但是,人之所以能成为万物之灵,不光是眼睛看到了当前的情况,所有看到的情况是可以在大脑里有相应反应的。所以,大语言模型工作在认知层面。

我不知道有没有人注意到,这次OpenAI的一个技术合伙人提到他们做视觉模型的时候,讲如果你是基于大语言模型,完整理解这个世界的知识之上再来理解图像,你的理解程度是非常不一样的。

 所以,我也给大家讲一个观点,大家不要被“大语言模型”这五个字给弄糊涂了,就以为它只能解决语言问题,错了。实际上大语言模型之所以称为叫通用人工智能,大家应该相信,它是在理解了我们这个世界的所有知识之后,能够解决计算机听觉、视觉的很多问题。而且未来可能在机器人控制、自动驾驶,各个方面发挥神奇的作用。

为什么到现在真正的自动驾驶没有实现。一个很简单的道理,就是它们目前都是在感知层面的识别,雷达告诉你前方有障碍物,而不是在认知层面。如果我们的人工智能不能模拟人的认知层面的人的反应和工作,而仅还停留在一个视网膜感知的层面,我想真正的自动驾驶可能一辈子也出不来。

所以,大语言模型之所以被称为叫通用人工智能,不光是在自然语言处理上发挥作用。它在计算机视觉,在自动驾驶等场景上都能有作用。将来,在蛋白质折叠分析,人类基因组序列分析等很多方面,我觉得大语言模型可能都会带来各种各样的惊喜。

今天我们在大语言模型上取得了突破,就有能力在大语言模型的基础上来思考,到底怎么样能做出一个真正的AIoT。这个AI,如果是大语言模型驱动的AI,它就是真正的强人工智能。

我的第二个观点,也想讲讲为什么今天我们要来讲一个智能硬件的场景。

大语言模型问世以后有很多种观点,但是,我觉得它肯定不是每个人上来马上就能玩的东西。所以,我觉得大语言模型实际上是一个提高生产力的工具。它更像是电脑,更像是手机这种发明,意味着带来一场工业革命级的更新。

人工智能折腾了很多年,实际上离我们很多人的日常工作和生活的场景还比较遥远。这次以GPT为代表的大模型确实让人类的人工智能到了一个PC时代,到了一个iPhone时刻。

微软给我们做了一个典范,把它所有的产品“全家桶”都拿大模型重塑了一遍。实际上这里我们也讲过很多,比如360的场景里面浏览器怎么改造、搜索怎么改造,360安全卫士的桌面如何改造?但其实还有一个更大的领域,就是智能硬件。我觉得智能硬件实际上也是硬件化的APP,那么它如何能够与大语言模型结合?这场工业革命中,智能硬件这个场景将会扮演什么样的角色?

我也和团队说,过去我们讲互联网思维,未来可能叫大模型思维,过去我们是讲“互联网+”,以后可能是“人工智能+”。或者以后人工智能这个词改一下,新的人工智能可以叫“认知型人工智能”,或者叫“生成式人工智能”,或者叫“大语言模型人工智能”,跟原来老的人工智能概念不太一样。

我想再分享一个观点。大语言模型发展到现在,有一个巨大的方向,就是它要从单一的识别文字到能够识别图片、视频、语音,就是我们所说的多模态。GPT-3.5你可以认为是一个强人工智能的拐点,GPT-4.0比GPT-3.5领先了很多,国内我们很多同行做的产品,包括360的智脑离GPT-3.5比较近了。但是GPT-4.0如果是100分,国内的水平大概也就在70分左右。

GPT-4.0除了对知识的理解更加深入,推理更加复杂,其中有一个很重要的要求就是它有多模态的处理能力。比如文生图,就是你提出要求,它生成图片,这个只是完成了多模态的输出部分。实际上真正的多模态是你能给它一张图片、视频,大语言模型不仅能够认出来这张图上有谁,最重要的是能认出来图上的人都在干什么,他们互相之间有什么关系,能读出图里边蕴含的意思,这个没有对人类知识的了解,是不可能做到的。

所以,现在整个大模型的发展之路必然是多模态,多模态就是能够输入图像和视频,能够输出图像和视频,能够输入声音和音乐,也能够输出声音和音乐。当然,现在一个完整的多模态的大模型全世界不存在,GPT-4也只是宣布了有这个能力,这个能力还没有对外输出,这也是代表了大模型下一步皇冠上的明珠。所以,今天我们把我们在多模态上的一部分成果会拿来给大家做一些展示。

如果有了多模态大模型之后,我觉得和物联网结合就可能变成下一个风口。一直有人说机器人和大模型之间的关系。实际上把很多智能硬件,包括机器人和大语言模型接起来,就相当于给很多智能硬件有了灵魂,有了真正的大脑,不仅有了感知的能力,还有了认知的能力。

我曾经开玩笑,如果ChatGPT有了自我意识之后,又有了能下单的能力,它买的第一个物品是什么?我说它一定首先给自己买一个智能摄像头给自己接上,因为它就能真正地看懂这个世界。我们还有麦克风,我们有扬声器,接上大模型之后,相当于它有了耳朵、有了嘴巴。

360为什么能做视觉大模型呢?第一个基础是说360已经训练了一个千亿参数的智脑,一个基于文字,基于自然语言理解的一个认知大模型。第二个360做智能摄像头也做了有好多年了,有百亿级的安防行业数据可以进行训练和微调。所以这次我们基于这种安防的背景,能够去训练一个视觉大模型。

原来我做摄像头的时候,最大的感慨是什么?我们的摄像头无法事前报警,我们在很多地方发挥的作用就是出了事之后去找摄像头录像,来做事后的事故的复核。比如说,我们听到很多家庭里边老人在起居室里摔倒了,或者小孩儿爬到一个没有窗户的危险地带向上攀爬,原来的摄像头可能能认出来有老人,有小孩儿,但是他不能理解画面的语义,所以它也就不能做出正确的判断。

但是,当你有了一个大语言模型多模态能力为支撑的,真正的认知型大脑的时候,当你的摄像头看到这个场景的时候,你自然就会联想起来这个老人可能处在危险之中,这个小孩儿可能现在有可能掉到窗户外面去,从而就能够提前预警,发布警告。

现在我们有两个团队在密切配合,也就是说,大语言模型团队积极帮助我们另一个团队构造视觉的模型。这个视觉大模型构造出来之后,又可以成为我们360大语言模型的一部分,构成我们多模态的能力。有了多模态能力的大模型,它增强了360智脑能够看懂图片,看懂视频的能力。现在,听见声音的能力还在研发,一旦把听懂声音,看懂图片,能够连续看懂多组图片的能力合在一起就变成了识别视频的能力。

之前大家所设想的场景还是以偏软件、网站、应用为主,这次我们希望让大模型的能力从数字世界走向物理世界,基于多模态技术的大语言模型,和智能硬件的结合是下一个风口。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部