中国科学院自动化研究所ECCV2024：多模态多任务大一统GriffonV1_

近日，中国科学院自动化研究所大模型研究中心团队提出了一种基于多模态大语言模型的实例级感知任务统一模型，Griffon v1。

目前，该工作已被计算机视觉领域国际顶级学术会议之一的ECCV2024接收。

该模型能够在不依赖于专家模型和任务专用解码器的基础上，利用大语言模型直接实现对话式的任意粒度物体的定位，在相同分辨率下首次实现了接近检测专家模型的性能，并在指代表达理解及视觉定位任务上超过了先进专家模型。

引言

随着大语言模型和图文指令微调技术的不断进步，多模态大模型已展现出对复杂场景的强大理解能力。这些模型通过预测下一个Token的方式，实现了对图像级任务的统一处理，并在图文理解、因果推理和智能问答等多个领域得到广泛应用。然而，现有的大模型主要关注于图像的全局理解，并未涵盖实例级的感知任务，如视觉定位、短语定位和目标检测等。

为解决这一问题，有研究者尝试利用大规模语言模型（LLM）调用现成的视觉专家模型或集成多个视觉预测模块，以实现对图像局部的精确感知。例如，HuggingGPT通过API调用Huggingface模型库中的专家模型，为GPT增加了多种视觉处理能力。当识别到物体检测需求时，它能够调度相应的定位专家模型，完成定位任务并借助大语言模型整合结果进行输出。尽管如此，像HuggingGPT、AutoGPT和BuBoGPT等模型虽具有多种定位能力，但它们的泛化能力往往受限于视觉专家模型，且增加了模型的复杂度和联合优化的难度。

另一方面，还有研究如Shikra、Ferret和Qwen-VL等尝试将物体坐标转换为文本或特殊占位符，并通过预测下一个Token的方式进行处理。但这些方法通常只适用于低分辨率、单目标指代等简单场景，并难以应对更复杂、细粒度的任务，如目标检测和计数。因此，为了实现一个更为通用的多模态多任务统一模型，开发新的设计方法，将视觉定位、短语定位和目标检测等实例级任务纳入大语言模型的框架内，便显得尤为重要。

多任务统一视觉感知大模型，提升图文局部感知

Griffon v1实现了多任务统一的视觉感知大模型。具体来说，以多模态大模型LLaVA为基础，把目标检测、短语定位、指代表达理解等定位任务统一到图文大模型里边，用LLM的自回归统一编码训练和预测，实现LLM对图像中的细粒度目标位置和类别理解，强化图文大模型的局部感知能力。主要包括以下四个方面：语言提示定位数据集构建、统一输入-输出表示设计、渐进式训练方法及免训练的置信度评价方法。

1. 语言提示定位数据集

现实场景中，用户通常用不同粒度的文本描述来给物体打标签。根据标签的类型和物体的数量，真实场景中的定位任务可以分为四个类型：

l 单个指代定位（1 vs. 1）：模型需要将目标与其他同类物体区分开来，并输出该特定对象的精确坐标。

l 单类别多目标定位（1 vs. N）：对于给定的类别名称或描述短语，模型定位并输出所有匹配对象的坐标。

l 多类别多目标定位（N vs. N）：当输入包括多种类别物体及不存在类别物体，模型识别并输出所有存在目标的坐标。

l 不存在目标判别（None）：如果输入不存在对象的描述，模型返回“None”而非一定找到一个物体。

基于该场景分析和多模态大模型采用的预训练及指令微调数据范式，为实现在上述任意场景中的语言提示定位，预训练数据关注于构建模型的多物体感知和细粒度判别能力，指令微调数据则利用所构造的能力通过精细化的任务数据实现场景泛化。

为构建预训练数据，收集了开源REC数据包括Visual Genome及RefCOCO系列数据集和开源目标检测数据Objects 365及MSCOCO，并如图1左侧所示通过ChatGPT构造对应的任务模板。

为构建多场景的指令微调数据，在预训练数据的基础上额外囊括了Flickr30K Entities作为1 vs. N数据，并基于LVIS构造不存在指代数据，在GPT-4V的帮助下丰富不存在指代的类型及生成更丰富的指令模板，满足用户灵活的指令需求。最终，如表1所示，共计构建6M定位预训练数据和900K的指令微调数据。

1. 统一输入-输出表示设计

为实现不引入特殊占位符及特殊结构，Griffon v1设计了一种与图文任务一致的统一输入-输出表示方法。Griffon v1由视觉编码器CLIP-ViT-L/14、连接器及大语言模型Llama2-13B组成。

为了提高模型的细粒度感知能力，将视觉编码器的分辨率通过双线性插值到448。由于采用大语言模型对话的形式，模型本身能够直接处理任何形式的文本输入，自然统一了不同场景的定位输入。

从输出统一的角度，Griffon v1将坐标统一归一化为固定3位精度[0-1]编码表示，单个目标以“类别-[x1,y1,x2,y2]”的形式统一表示，当输出多个目标时目标间用&连接，从而在不引入任何先验及占位符实现了多个定位场景的输出统一。

1. 渐进式训练方法

此前的模型通过将REC任务数据加入到指令数据中通过监督微调赋予模型初步的定位能力。但面对所分析的更复杂的场景时，模型此时需要对图像区域有全面且细致的理解，因此基于预训练和指令微调的想法，Griffon v1提出两阶段渐进式训练方法：

l Stage 1 基础场景预训练：通过语言提示定位数据中的6M预训练数据全量训练整个网络，赋予基础模型多物体定位能力

l Stage 2全场景指令微调：通过语言提示定位数据中900K细粒度定位指令数据，微调连接器和LLM，提升模型的指令遵循能力和细粒度定位执行能力。

2. 免训练的置信度评分方法

在目标检测任务中，为衡量每个预测的质量，模型通常在每个输出的基础上额外预测置信度以突出高质量预测框。为量化多目标序列预测中各预测结果的质量，参考目标检测中的置信度预测，提出一种无需训练的目标置信度评价方法。

在REC任务和短语定位任务中，如表2及表3所示。REC任务采用AP50作为评价指标，短语定位任务使用Any-box和Merged-box评测。Griffon v1在相同分辨率下超过了同期阿里的Qwen-VL大模型，且使用了更少的数据超过了苹果的Ferret大模型等工作，并超过了多个专家模型的性能。

为了验证所提出的免训练置信度评价方法，通过逐步加入预测坐标及类别的概率，如表4所示，加入所提出的方法后，模型在多目标场景目标检测任务上性能显著提升。

Griffon v1：突破性定位能力，统一多模态任务处理

目前，Griffon v1具备了对不同粒度描述物体的定位能力，将定位场景中的指代表达理解、短语定位、目标检测及不存在判别等多个任务以下一个Token预测的方式统一起来，解决了此前多模态大模型的图像级理解和单个目标定位的局限，为多模态多任务大一统模型的进一步拓展奠定了基础。Griffon v1与Qwen-VL及专家模型Grounding Dino的定性对比如图3所示，同时提供更多实例如图所示。