Molmo 一个开源的多模态模型,能够识别图像中的物体、场景和活动…

Molmo 一个开源的多模态模型,能够识别图像中的物体、场景和活动…
2024年09月26日 15:17 互联网的那点事
Molmo 一个开源的多模态模型,能够识别图像中的物体、场景和活动,并生成准确的描述。Molmo还支持用户通过2D指向交互,例如用户可以通过手势或点击与图像中的对象进行互动。Molmo使用的图像字幕数据集完全由人类注释者收集。模型能够根据输入的变化自动调整处理方式,适应不同类型的用户交互和数据格式。Molmo在开源权重和数据模型中表现最佳,能够与一些专有系统(如GPT-4o、Claude 3.5和Gemini 1.5)相媲美。Molmo模型完全开源,用户可以访问其模型权重和数据。Molmo VLM管道(包括权重、代码、数据和评估)完全开放。在同类大小的多模态模型中,Molmo-72B表现优越,获得最高的学术基准分数,并在人类评估中排名第二,仅次于GPT-4o。详细介绍:

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部