“人大系”AI创企「智子引擎」自研多模态大模型，落地社会治理和实体机器人场景

文 | 周鑫雨

编辑 | 邓咏仪

想要更接近通用人工智能，提高AI对图像、语音、视频等多模态内容的理解不可或缺。相较于注重文本交互的单模态语言模型，多模态模型能将AI领域拓展至识别、检测等更广泛的领域。

成立于2021年， AI创企“智子引擎”是国内较早对多模态大模型展开研究的团队。人大高瓴人工智能学院教授卢志武担任公司的首席技术顾问，并对大模型相关研究成果进行商业转化。

基于今年3月8日发布的“图生文”模型“元乘象 ChatImg1.0”，智子引擎推出了支持语音、文本、图像交互的ChatImg2.0。

元乘象 ChatImg 2.0能够对图像和视频内容进行理解。

相较于主打“看图”的1.0版本，ChatImg2.0新增语音交互功能，并支持视频输入，并在页面新增“发现”功能导航入口。

元乘象 ChatImg支持视频和语音输入，与此同时增加了“发现”功能导航界面。

ChatImg的基座为智子引擎自研的150亿参数多模态大模型。2023年3月，团队在关于多模态大模型“无人区”的探索有了初步的成果：会看图的“元乘象 ChatImg1.0”发布，后续更迭至2.0版本。

智子引擎CEO高一钊介绍，ChatImg 2.0的中文和英文多模态对话能力已经超过了目前主流的开源模型。在多模态对话数据集（LLaVa）的公开评测过程中，ChatImg 2.0对90个问题的回答结果，拿到了GPT-3.5打出的最高分，并与GPT-4的表现最为接近。

LLaVa对元乘象 ChatImg 2.0以及主要开源模型的评测结果。

在应用落地上，基于对复杂场景的识别能力，智子引擎与软通智慧合作发布了城市多模态大模型和城市治理云GPT-Creator2.0。基于软通智慧提供的城市场景、城市数据以及私有化部署及专训，智子引擎联合训练出应用于城市治理事件管理的多模态大模型。

评测结果显示，ChatImg在复杂场景的识别上准确率达到了90%以上。与此同时，城市治理改变了传统“一场景一模型”的部署模式，用特定数据对ChatImg进行微调的解决方案将系统部署复杂度降低了50%以上。

与此同时，智子引擎团队正在对“ChatImg2.0+实体机器人”进行尝试。目前，该团队联合北京理工大学张伟民教授团队共同打造了智能机器人“小象”。与目前市面上大多厂商将AI能力接入辅助硬件功能不同，“小象”的设计则从ChatImg的多模态交互功能出发，为AI打造更贴合的实体智能生命形象。“小象”目前具备语音交互、图像识别等功能。