北大团队推出VARGPT-v1.1,多模态模型创新突破

北大团队推出VARGPT-v1.1,多模态模型创新突破
2025年04月15日 14:39 量子位
#多模态模型统一图像生成和编辑##北大团队多模态新突破#北京大学的VARGPT团队,推出了VARGPT模型的v1.1版本,能在不改动架构的情况下,根据你给出的指令编辑生成图像。比如,用户可以要求模型将某个图像转变成“抽象风”、“艺术风”、“未来风”、“漫画风”。VARGPT-v1.1便会自动进行颜色搭配、构图方式甚至细节上的风格调整。VARGPT-v1.1的亮点包括:1. 迭代视觉指令微调与强化学习结合的训练策略: 通过交替进行监督微调(SFT)与基于偏好直接优化(DPO)的强化学习,有效提高了模型的图像生成质量。模型逐步提升图像生成分辨率,从256×256扩展至512×512像素,图像细节与真实性显著增强。2. 更大规模的视觉生成训练数据集: VARGPT-v1.1采用了多达830万条视觉生成指令数据,包括真实世界的LAION-COCO数据集以及由Midjourney与Flux模型生成的合成数据。大规模数据的使用显著扩大了模型对不同类型图像生成的泛化能力。3. 升级语言模型主干至Qwen2: 引入最新的Qwen2-7B语言模型主干,利用其高效的注意力机制与更好的token化策略,有效提升了模型的视觉理解能力。4. 无架构修改的图像编辑能力: VARGPT-v1.1在不改动模型架构的基础上,通过专门构建的图像编辑数据集,实现了图像编辑功能。这使得模型不仅可以理解和生成图像,还能根据用户指令对图像进行编辑。VARGPT-v1.1的训练策略采用了三阶段方法,首先,VARGPT-v1.1在视觉理解、图像生成和图像编辑等方面都进行了针对性训练。其次,团队结合视觉指令微调和强化学习,让模型能够通过迭代的方式不断优化生成效果,以提升图像生成的分辨率和质量。最后,经过有监督微调(SFT)和直接偏好优化(DPO)的多轮训练,VARGPT-v1.1不仅能生成图像,还能在不改变原架构的基础上,对现有图像进行精细化调整,甚至可以根据用户提供的指令对图像进行各种编辑操作。实验结果显示,VARGPT-v1.1在一些视觉理解、视觉问答等任务上,全面超越了现有的多模态大语言模型。它不仅能够生成高质量的图像,还能通过输入文本指令和图像指令来产生混合模态的输出,真正做到了图文并茂。VARGPT-v1.1所有的训练数据、推理代码、模型都已经开源,感兴趣的小伙伴可以点击——细节解读:project:  code:  arxiv:
0条评论|0人参与网友评论
最热评论

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部