Molmo 一个开源的多模态模型，能够识别图像中的物体、场景和活动…_

Molmo 一个开源的多模态模型，能够识别图像中的物体、场景和活动，并生成准确的描述。Molmo还支持用户通过2D指向交互，例如用户可以通过手势或点击与图像中的对象进行互动。Molmo使用的图像字幕数据集完全由人类注释者收集。模型能够根据输入的变化自动调整处理方式，适应不同类型的用户交互和数据格式。Molmo在开源权重和数据模型中表现最佳，能够与一些专有系统（如GPT-4o、Claude 3.5和Gemini 1.5）相媲美。Molmo模型完全开源，用户可以访问其模型权重和数据。Molmo VLM管道（包括权重、代码、数据和评估）完全开放。在同类大小的多模态模型中，Molmo-72B表现优越，获得最高的学术基准分数，并在人类评估中排名第二，仅次于GPT-4o。详细介绍：