周鸿祎：多模态是大模型发展的必经之路，与物联网结合是下一个风口

36氪获悉，近日360智慧生活集团举办视觉大模型及AI硬件新品发布会。发布会中，360推出智脑·视觉大模型及多款AI硬件产品，并宣布360智慧生活正式切入SMB市场。

360方面表示，近年传统深度学习算法在安防场景中的局限性愈发突出，具体表现为算法通用、场景不通用、边端算法受限、内存受限等。对比之下，大模型有着更好的泛化能力，有望进一步突破传统算法的精度与数据局限，也能解决传统深度学习算法的数据依赖问题。

但另一方面，当前业内提及大模型，更多指的是大语言模型，其他模态的大模型数量不多。360认为，增强多模态能力，核心要借助大语言模型的认知、推理、决策能力。

于是，此次360智慧生活决定将视觉感知能力与360智脑大语言模型相结合，并针对安防场景进行行业数据微调，推出视觉及多模态大模型——360智脑·视觉大模型。360视觉云业务线总经理孙浩对外介绍，360智脑·视觉大模型现阶段主要聚焦开放目标检测（OVD）、图像标题生成、视觉问答（VQA）三项能力。

会议中，360集团创始人周鸿祎也针对这一话题发表演讲。

周鸿祎表示，过去的人工智能是弱人工智能，在此基础上打造的智能硬件不具有真正的智能。大模型出现后，计算机第一次真正的理解这个世界，并能够赋予AIoT真正的智能。

谈及视觉大模型的研发过程，周鸿祎进一步介绍，360是在视觉感知能力基础上，融合千亿参数“360智脑”大模型，基于十亿级互联网图文数据进行清洗训练，并针对安防场景百万级行业数据进行微调，最终推出360智脑-视觉大模型。

“大模型将带来一场新工业革命”，周鸿祎表示，所有软件、APP、网站，所有行业都值得用大模型进行重塑，而智能硬件是硬件化的APP。从大模型的发展趋势来看，多模态是大模型发展的必经之路，GPT-4最重要的变化是拥有了多模态的处理能力。因此，周鸿祎预测，多模态大模型与物联网的结合将会成为下一个风口。

以下是周鸿祎演讲内容（经部分删减），供读者参考：

大家好，很高兴今天来参加视觉大模型的发布。

今天主要想分享一下，现在正火热的大模型和智能硬件的结合。很多人肯定很奇怪，360已经有了360智脑，就是360的大语言模型，为什么又出来一个视觉大模型呢？我还是先分享几个我对大模型和生成式AI的观点。

其实AIoT这个概念已经不新鲜了，这个行业所有做智能硬件的人都会标榜，我不仅仅是物联网设备，都是AIoT，这个A就是AI。但是我们今天谈到的AIoT的概念，可能要重新刷新过去旧的AIoT的概念。

实际上生成式AI，或者叫ChatGPT的出现，预示着一个真正的人工智能，或者叫强人工智能，或者叫超级人工智能的拐点真正产生了。原来的AIoT，跟它聊两句天就聊不下去了，很多音箱的功能最后就没有人去用了，很多摄像头的能力也只是起到一个事后录像的作用。

那么，这次大语言模型的问世，标榜着一个真正的人工智能时代的来临。我觉得有两个分水岭：

第一，过去我们做的人工智能都是垂直人工智能，为完成一个特定的任务就得有一套特定的算法，一个特定的模型，很难通用。而这次大语言模型它用一套算法，一套模型结构，一套训练的思路，解决了人工智能中很多过去很碎片化的问题。

第二，还有一个区别，这次大语言模型虽然也容易给大家一个误解，好像是只能解决语言的问题。但是，在人工智能领域，如果把语言的问题给解决了，这件事是非常了不起的，是皇冠上的明珠。人类的语言基本上定义了人类所有的知识，如果一个大语言模型能够真正地理解人类所有的语言，能够很自然的做出各种交流和理解，包括各种推理，就意味着它第一次完整把人类世界的知识有了一个充分理解。

原来比如最常见的图像识别，名词叫Computer vision，就是CV，或者计算机视觉。实际上很多时候是在工作层面感知，像人的视网膜的原理。但是，人之所以能成为万物之灵，不光是眼睛看到了当前的情况，所有看到的情况是可以在大脑里有相应反应的。所以，大语言模型工作在认知层面。

我不知道有没有人注意到，这次OpenAI的一个技术合伙人提到他们做视觉模型的时候，讲如果你是基于大语言模型，完整理解这个世界的知识之上再来理解图像，你的理解程度是非常不一样的。

所以，我也给大家讲一个观点，大家不要被“大语言模型”这五个字给弄糊涂了，就以为它只能解决语言问题，错了。实际上大语言模型之所以称为叫通用人工智能，大家应该相信，它是在理解了我们这个世界的所有知识之后，能够解决计算机听觉、视觉的很多问题。而且未来可能在机器人控制、自动驾驶，各个方面发挥神奇的作用。

为什么到现在真正的自动驾驶没有实现。一个很简单的道理，就是它们目前都是在感知层面的识别，雷达告诉你前方有障碍物，而不是在认知层面。如果我们的人工智能不能模拟人的认知层面的人的反应和工作，而仅还停留在一个视网膜感知的层面，我想真正的自动驾驶可能一辈子也出不来。

所以，大语言模型之所以被称为叫通用人工智能，不光是在自然语言处理上发挥作用。它在计算机视觉，在自动驾驶等场景上都能有作用。将来，在蛋白质折叠分析，人类基因组序列分析等很多方面，我觉得大语言模型可能都会带来各种各样的惊喜。

今天我们在大语言模型上取得了突破，就有能力在大语言模型的基础上来思考，到底怎么样能做出一个真正的AIoT。这个AI，如果是大语言模型驱动的AI，它就是真正的强人工智能。

我的第二个观点，也想讲讲为什么今天我们要来讲一个智能硬件的场景。

大语言模型问世以后有很多种观点，但是，我觉得它肯定不是每个人上来马上就能玩的东西。所以，我觉得大语言模型实际上是一个提高生产力的工具。它更像是电脑，更像是手机这种发明，意味着带来一场工业革命级的更新。

人工智能折腾了很多年，实际上离我们很多人的日常工作和生活的场景还比较遥远。这次以GPT为代表的大模型确实让人类的人工智能到了一个PC时代，到了一个iPhone时刻。

微软给我们做了一个典范，把它所有的产品“全家桶”都拿大模型重塑了一遍。实际上这里我们也讲过很多，比如360的场景里面浏览器怎么改造、搜索怎么改造，360安全卫士的桌面如何改造？但其实还有一个更大的领域，就是智能硬件。我觉得智能硬件实际上也是硬件化的APP，那么它如何能够与大语言模型结合？这场工业革命中，智能硬件这个场景将会扮演什么样的角色？

我也和团队说，过去我们讲互联网思维，未来可能叫大模型思维，过去我们是讲“互联网+”，以后可能是“人工智能+”。或者以后人工智能这个词改一下，新的人工智能可以叫“认知型人工智能”，或者叫“生成式人工智能”，或者叫“大语言模型人工智能”，跟原来老的人工智能概念不太一样。

我想再分享一个观点。大语言模型发展到现在，有一个巨大的方向，就是它要从单一的识别文字到能够识别图片、视频、语音，就是我们所说的多模态。GPT-3.5你可以认为是一个强人工智能的拐点，GPT-4.0比GPT-3.5领先了很多，国内我们很多同行做的产品，包括360的智脑离GPT-3.5比较近了。但是GPT-4.0如果是100分，国内的水平大概也就在70分左右。

GPT-4.0除了对知识的理解更加深入，推理更加复杂，其中有一个很重要的要求就是它有多模态的处理能力。比如文生图，就是你提出要求，它生成图片，这个只是完成了多模态的输出部分。实际上真正的多模态是你能给它一张图片、视频，大语言模型不仅能够认出来这张图上有谁，最重要的是能认出来图上的人都在干什么，他们互相之间有什么关系，能读出图里边蕴含的意思，这个没有对人类知识的了解，是不可能做到的。

所以，现在整个大模型的发展之路必然是多模态，多模态就是能够输入图像和视频，能够输出图像和视频，能够输入声音和音乐，也能够输出声音和音乐。当然，现在一个完整的多模态的大模型全世界不存在，GPT-4也只是宣布了有这个能力，这个能力还没有对外输出，这也是代表了大模型下一步皇冠上的明珠。所以，今天我们把我们在多模态上的一部分成果会拿来给大家做一些展示。

如果有了多模态大模型之后，我觉得和物联网结合就可能变成下一个风口。一直有人说机器人和大模型之间的关系。实际上把很多智能硬件，包括机器人和大语言模型接起来，就相当于给很多智能硬件有了灵魂，有了真正的大脑，不仅有了感知的能力，还有了认知的能力。

我曾经开玩笑，如果ChatGPT有了自我意识之后，又有了能下单的能力，它买的第一个物品是什么？我说它一定首先给自己买一个智能摄像头给自己接上，因为它就能真正地看懂这个世界。我们还有麦克风，我们有扬声器，接上大模型之后，相当于它有了耳朵、有了嘴巴。

360为什么能做视觉大模型呢？第一个基础是说360已经训练了一个千亿参数的智脑，一个基于文字，基于自然语言理解的一个认知大模型。第二个360做智能摄像头也做了有好多年了，有百亿级的安防行业数据可以进行训练和微调。所以这次我们基于这种安防的背景，能够去训练一个视觉大模型。

原来我做摄像头的时候，最大的感慨是什么？我们的摄像头无法事前报警，我们在很多地方发挥的作用就是出了事之后去找摄像头录像，来做事后的事故的复核。比如说，我们听到很多家庭里边老人在起居室里摔倒了，或者小孩儿爬到一个没有窗户的危险地带向上攀爬，原来的摄像头可能能认出来有老人，有小孩儿，但是他不能理解画面的语义，所以它也就不能做出正确的判断。

但是，当你有了一个大语言模型多模态能力为支撑的，真正的认知型大脑的时候，当你的摄像头看到这个场景的时候，你自然就会联想起来这个老人可能处在危险之中，这个小孩儿可能现在有可能掉到窗户外面去，从而就能够提前预警，发布警告。

现在我们有两个团队在密切配合，也就是说，大语言模型团队积极帮助我们另一个团队构造视觉的模型。这个视觉大模型构造出来之后，又可以成为我们360大语言模型的一部分，构成我们多模态的能力。有了多模态能力的大模型，它增强了360智脑能够看懂图片，看懂视频的能力。现在，听见声音的能力还在研发，一旦把听懂声音，看懂图片，能够连续看懂多组图片的能力合在一起就变成了识别视频的能力。

之前大家所设想的场景还是以偏软件、网站、应用为主，这次我们希望让大模型的能力从数字世界走向物理世界，基于多模态技术的大语言模型，和智能硬件的结合是下一个风口。