CogVLM是一款由智谱AI和清华KEG联合开发的视觉语言基础模型

CogVLM是一款由智谱AI和清华KEG联合开发的视觉语言基础模型
2025年01月09日 21:13 礼哥
#ai探索计划# CogVLM是一款由智谱AI和清华KEG联合开发的视觉语言基础模型。该模型在不牺牲NLP任务性能的前提下,实现了视觉语言特征的深度融合,其核心思想是“视觉优先”。CogVLM采用ViT编码器、MLP适配器、预训练大语言模型及视觉专家模块等组件,在图像理解、模型幻觉以及文本识别方面表现出色。它在多模态权威学术榜单上取得了综合成绩第一,并在多个数据集上取得了state-of-the-art或第二名的成绩。CogVLM-17B版本在14个多模态基准上进行了评估,在10项基准中取得最优性能。CogVLM适用于多种多模态场景,如图像字幕、视觉问答和视觉定位等,展现出未来智能助手的潜力。其开源特性使得研究者可以基于CogVLM进行进一步开发和优化,推动多模态AI技术的发展。#ai创造营##礼哥[超话]#

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部