DeepSeek文生图来了部分性能测试不输OpenAI_

经济观察网记者钱玉娟北京时间1月28日凌晨，农历新年前夕，中国人工智能（AI）初创公司DeepSeek在GitHub（面向开源及私有软件项目的托管平台）以及Hugging Face（AI社区）上发布了多模态大模型Janus-Pro，进军文生图领域。

DeepSeek介绍，Janus-Pro大模型是2024年11月发布的JanusFlow大模型的升级，分为7B（70亿）和1.5B（15亿）两个参数量版本，且均开源。

AI社区开发者的评论显示，DeepSeek的Janus-Pro模型具备在消费级电脑终端上本地运行的潜力。

Janus-Pro在多模态理解和文本到图像的指令跟踪功能上实现重大进步，其文本到图像生成的稳定性明显提升。

DeepSeek发布的测试结果显示，Janus-Pro的70亿参数版模型在一些基准测试中击败了美国AI独角兽OpenAI的多模态大模型DALL-E3。

尽管Janus-Pro的模型尺寸有限，但从技术报告看，DeepSeek团队添加了7200万张高质量合成图像，模型在预训练阶段的真实数据与合成数据的比例达到了1：1，这使模型的图像视觉生成能力更稳定。

另外，Janus-Pro还通过将视觉编码分离为“理解”和“生成”两条路径，既缓解了视觉编码器在理解和生成中的角色冲突，还提升了模型框架的灵活性。

该模型还在多模态理解的训练数据上增加了大约9000万个样本，令其在文生图的同时，也能识别图像及其中的文字、知识等。

就在北京时间1月27日，由DeepSeek开发的App也超越了OpenAI的ChatGPT，成为苹果应用商店下载量最大的免费App。

几乎在同一天，包括英伟达、博通公司、超威半导体公司以及微软等在内的美国科技板块公司股价大幅下跌，华尔街均评估是受中国企业DeepSeek的技术突破影响。

在DeepSeek发布文生图多模态大模型前一晚，达闼机器人创始人黄晓庆接受经济观察网采访时称，其团队已基于DeepSeek的V3及R1大模型，将对话功能应用于旗下的机器人开发创新中，目前正在规划基于DeepSeek的多模态大模型进行二次训练。

黄晓庆认为：“DeepSeek开源、开放的模式，有利于第三方进行二次训练，加入多模态和机器人控制模型。”DeepSeek的MoE专家模型的融合架构不仅适合模型应用下游厂商的分布式训练场景，对像达闼机器人这样的厂商来说，跨应用场景的各种形态的机器人开发，也可以与DeepSeek的多模态大模型进行融合。