机器之心报道
编辑:杜伟、Panda
马上就要进入蛇年了,国内的 AI 厂商们却完全没有闲下来的意思,正在春节前扎堆发布各自的新一代大模型。
本周一,豆包刚刚上线了全新的实时语音功能,可说是在中文语音对话方面做到了断崖式领先,为终端用户带来了智商与情商双高的实时语音助手和聊天伙伴。
第二天,月之暗面与 DeepSeek 都各自推出了可比肩满血版 o1 的推理模型,吸引了中外无数眼球。
而再一天后,也就是昨天,豆包大模型又迎来了一次重大的版本更新:豆包大模型 1.5Pro 版本。看完该版本模型的更新详情与技术博客后,我们的第一感觉是:开发者有福了!
具体来讲,此次豆包大模型 1.5Pro 版本包括了基础模型 Doubao-1.5-pro (又包括 32k 和 256k 上下文长度)、新版豆包视觉理解模型 Doubao-1.5-vision-pro、全新豆包实时语音模型 Doubao-1.5-realtime-voice-pro。与此同时,轻量级模型 Doubao-1.5-lite(32k 上下文长度)具有极致响应速度,效果与时延均达到全球一流水平。
整体比较的话,1.5Pro 版本不仅比前代模型更强了,而且强了很多 —— 不仅基础能力得到显著增强,其多模态能力也得到了全面提升,在多项公开评测基准上都达到了全球领先。事实上,本周一豆包发布的实时语音功能就是基于该版本实时语音模型开发的。
Doubao-1.5-pro 在多项基准上都超过了其它 SOTA 模型
更重要的是,Doubao-1.5-pro 的提升拥有扎实的基础 —— 其在训练过程中没有使用任何其它模型生成的数据。也就是说,Doubao-1.5-pro 是完全基于自主数据生产体系训练的模型,没有通过蒸馏其它模型来「走捷径」。
在开发者尤为关注的使用成本方面,豆包大模型一开始就坚持「训练-推理」一体设计,以便在模型性能和推理成本之间取得最优的平衡。
此次更新更是进一步提升了豆包大模型的性价比:32k 上下文长度的 Doubao-1.5-pro 处理 1000 token 仅需 0.0008 元,换算下来,处理 100 万 token 仅需 8 毛钱!输出 1000 token 也只需 0.002 元。256k 上下文长度的模型的定价会更高一点,但它也能支持更加复杂的任务。
更注重速度的 Doubao-1.5-lite 还更便宜,推理输入单价为 0.0003 元/千 tokens,推理输出单价为 0.0006 元/千 tokens。
如此低的费率让豆包大模型非常适合作为日常 AI 应用与智能体的底座。并且有媒体爆料称,即便 Doubao-1.5 系列模型的定价已经如此之低,也仍有非常不错的盈利空间:在火山引擎上以 API 形式提供 Doubao-1.5-pro 拥有高达 50% 的毛利率。
不仅如此,火山方舟也进一步优化了基于豆包大模型开发和部署应用的流程,让开发者可以更轻松地将创意变成具体的产品和服务。
目前,Doubao-1.5-pro 已在豆包 APP 灰度上线,同时,开发者也可在火山引擎直接调用 API 。
- 火山引擎产品页面(也可免费体验):https://www.volcengine.com/product/doubao
- 技术博客地址:https://team.doubao.com/zh/special/doubao_1_5_pro
豆包 1.5Pro 实测效果卓越
轻松拿捏推理 & 全模态任务
在上线之后,机器之心马上对「新鲜出炉」的豆包大模型 1.5Pro 版本来了一波实测。首先来个简单的逻辑推理题:「如果昨天是明天的话就好了,那么今天就是周五了。请问:实际上,句中的今天可能是周几?」Doubao-1.5-pro-32k 轻松地分析出了该问题的两种可能情况。
再考它一道经典的「真话者与说谎者」题,大模型只有具备了强大的问题解构与重构以及逆向思维能力,才有可能找到破解的关键点。Doubao-1.5-pro-32k 做到了游刃有余。
接下来测试 Doubao-1.5-vision-pro,看看这个视觉理解能力全球领先的多模态大模型能否经受住我们的考验。首先,我们扔给模型一张梗图,从结果看起来,Doubao-1.5-vision-pro 显然 get 到了梗图中表达的「深意」。
再让它做一道数学题,出自 2024 年高考全国甲卷理科数学试题,Doubao-1.5-vision-pro 仅用 30 秒就给出了正确答案和详细的解题思路。
简单测试下来,我们最大的感受是:豆包大模型 1.5Pro 版本不仅正确率高,而且速度还非常快,足以满足日常生活工作的各种需求。
如前所述,该版本模型全模态能力中的语音交互,我们已经提前在豆包 App 上体验过了。据介绍,基于 Doubao-1.5-realtime-voice-pro 打造的实时语音通话功能,其表现力迎来了质的飞跃,并在拟人化、情绪理解、情感表达等多样化场景中给了所有人不小的震撼,真正做到了会哭会笑,还能说方言唱歌。
视频链接:https://mp.weixin.qq.com/s/V_1jClx4rOq44VEw1gk95A?token=1323334260&lang=zh_CN
Doubao-1.5-pro 背后的技术
从 MoE 到高效后训练
Doubao-1.5-pro 的卓越表现究竟来自何处?简单来说:稀疏 MoE 架构以及从预训练到后训练和推理阶段的层层创新。
稀疏 MoE 结构天然具有低成本、低算力需求、效率高的优势,可以在保持模型性能的同时,以更少的算力投入获得更高的产出。这成为 Doubao-1.5-pro 选择此结构的重要原因。
在预训练阶段,豆包大模型团队完成了一项重要成果:从稀疏度 Scaling Law 出发,确定性能和效率比较平衡的稀疏比例,让小参数量激活的模型同样能够达到当前世界一流大模型的性能。
具体来讲,基于模型结构和训练算法优化,Doubao-MoE 和 Doubao-Dense 在使用完全相同的 9T tokens 部分训练数据情况下,MoE 模型的性能略优于 Dense 模型,并且 MoE 模型的激活参数量仅为 Dense 模型整体参数量的 1/7,完成了「小打大」。作为对比,此前业界最高可以实现不到 3 倍的性能杠杆,而 Doubao-MoE 将这一水平提高了一大截,性能杠杆拉高到了 7 倍。
Doubao-MoE 与 Doubao-Dense 的训练损失曲线对比
不仅如此,得益于更优的预训练数据质量和训练超参,Doubao-MoE 的性能同样可以超越总参数远大于它的超大规模稠密预训练模型,比如 LLaMA-3.1-405B,其训练数据为 15T tokens。小参数模型能有这样不俗的表现,再次验证了 MoE 结构的成效。同时,MoE 模型完整训练后的性能比 9T tokens 数据的中间版本有了更大提升。
Doubao-MoE、Doubao-Dense 与 LLaMA-3.1-405B 的性能对比
另外,算法团队在预训练模型的基础上,设计了一系列模型参数动态调整算法,可以根据不同应用对模型性能的需求,从模型深度、宽度、MoE 专家数、激活专家数、隐藏 token 推理等维度来选择扩增和缩小模型参数,灵活性和适配性拉满,最大程度达成模型能力与推理成本的最优平衡。
在后训练阶段,为了持续且精准地优化数据质量,豆包大模型团队精心设计了一套高度自主的数据生产体系,深度融合了高效标注与模型自提升技术,更难得的是没有使用任何第三方模型生成的数据,从而在源头上确保了数据的独立性和可靠性。这种不以 AI 训练 AI 的做法走出了一条不同于业界大多数玩家的道路 —— 不对任何其他模型做数据蒸馏。
通过将知识从规模更大、性能更强的 LLM 迁移到规模较小的 LLM,数据蒸馏技术能够以较少的人工标注、算力资源获得相当的性能。在近日中国科学院深圳先进技术研究院、北大等机构联合发表的论文《大语言模型的蒸馏量化》中,研究者提到除了 Claude、Doubao 和 Gemini 之外,当前知名的开闭源 LLM 均表现出了较高的蒸馏水平,而这既可能导致模型稳健性下降,还会导致模型趋于同质化,降低多样性。
根据身份一致性评估,豆包大模型具有极低的蒸馏水平,图源:《Distillation Quantification for Large Language Models》
此外,豆包大模型团队还分别在 SFT(监督微调)、Reward Model(奖励模型)和 RL(强化学习)阶段进行了技术创新与优化,立足不同的视角充分发挥出真实数据的最大优势。具体来说:
- 在 SFT 阶段,利用算法驱动的训练数据优化系统来提升训练数据多样化,利用模型自演进技术来提升数据标注的多样性和难度,双管齐下,形成性能提升的良性循环。
- 在 Reward Model 阶段,建立起涵盖提示词分布优化、响应筛选、多轮迭代和主动学习的完整数据生产管道,并基于此实现了 Verifier 和 Reward Model 的深度融合,均衡提升了模型在数学、编程、知识和对话等多领域的能力。
- 在 RL 阶段,攻克价值函数训练难点,实现 token-wise 稳定建模,高难度任务的性能提升了 10 个绝对点。利用对比学习方法,有效提升 LLM 的表现并显著缓解 Reward hacking 问题。最终在数据、算法、模型层面全面实现 Scaling,实现算力到智力的有效转换。
在推理阶段,Doubao-1.5-pro 在 Prefill/Decode 与 Attention/FFN 构成的四个计算象限表现出显著不同的计算与访存特性,这要得益于针对不同象限来高效结合异构硬件与不同的低精度优化策略,实现低延迟与吞吐量提升并举、总成本降低的同时兼顾 TTFT 和 TPOT 的最优化目标。
四位一体对模型计算瓶颈、通信和访存瓶颈进行了有针对性的优化,比如 Prefill 阶段的主要瓶颈是在计算上,于是豆包大模型团队的做法是在多种计算访存比高的设备上做 chunk-PP Prefill Serving,如此一来便将线上系统的张量核利用率提升到了 60%。而在 Decode 阶段,计算瓶颈就不明显了,反而对通信和访存能力有更高的要求,于是在这里使用了计算访存比较低的设备,从而获得了更高的 ROI。另外,他们还在 Decode 阶段采用了低成本的采样和 Speculative Decoding(推断式解码)策略,降低了 TPOT 指标。
这种 Prefill 与 Decode 分离的策略可实现两个阶段计算集群的灵活配比和动态扩缩,进而奠定了豆包大模型高性价比的基础。
此外,火山引擎还自研了服务器集群方案,从而可以灵活支持低成本芯片,相比行业方案大幅降低了硬件成本。与此同时,他们通过定制化网卡和自主研发的网络协议,大大提升了小包通信效率。而在算子层面,计算与通信的重叠保证了高效与稳定的多机分布式推理。
可以说,从 MoE 到高效的训练与推理优化,Doubao-1.5-Pro 完成了一次扎扎实实的升级,从而既可以在实际体验中向用户提供卓越的性能,又能凭借算力、内存、通信等方面的优势以更低的成本快速完成部署和运行,支撑起海量用户参与的大规模产品(如社交平台、电商推荐系统)的核心需求。并且,这种多赢局面让我们看到了未来基础大模型一个非常有潜力的发展方向。
全模态能力进一步升级
豆包大模型早就已经具备多模态能力。Doubao-1.5-Pro 则是在原来的基础上实现了「全模态能力」的飞跃。
在视觉多模态方面,通过在多模态数据合成、动态分辨率、多模态对齐、混合训练上进行全面的技术升级,豆包大模型在视觉推理、文字文档识别、细粒度信息理解、指令遵循方面的能力都得到了显著增强。与此同时,模型的回复模式也变得更加精简和友好了。
现在,Doubao-1.5-pro 支持任意分辨率和长宽比的图片输入了,并且是原生支持!也就是说,不管是高清大图,还是模糊小图,又或是那些极端长图,该模型都能更清晰地识别其中内容。不仅如此,Doubao-1.5-pro 还能轻松地基于视觉输入执行推理,并且在各类基准上的表现都相当亮眼。
Doubao-1.5-pro 在多项指标上优于 GPT-4o 和 Claude 3.5 Sonnet 等前沿闭源模型,也胜过不少开源模型
如此优异的表现,主要得归功于字节自研的支持动态分辨率的 Doubao ViT,其仅凭 2.4B 的参数规模就达到了 SOTA,甚至超过了比之大 7 倍多的 EVA-CLIP-18B。
Doubao ViT 在多种视觉分类任务中的表现
在语音模态方面呢?豆包大模型团队提出了新的端到端的 Speech2Speech 框架。该框架不仅原生地将语音和文本模态进行了深度融合,同时还实现了在语音对话中真正意义上的语音理解生成端到端,在语音对话效果上相比传统的 ASR+LLM+TTS 的级联方式有质的飞跃。该方法的卓越表现已经在本周一发布的实时语音功能上得到了体现。
如此得到的 AI 模型不仅拥有高理解力(高智商),也拥有前所未有的语音高表现力与高控制力,以及模型整体在回复内容和语音上的高情绪承接能力。
当然,为了造就 Doubao-1.5-pro 卓越的全模态能力,豆包大模型团队也在数据方面做了诸多探索,包括引入多样化的视觉指令数据、采用多样化的数据合成管线、融合文本与语音 token、在多个训练阶段混合使用多模态数据与纯文本数据进行训练。
立足用户真实需求
不忘探索技术前沿
在 AI 技术落地方面,豆包算得上是国内 AI 大模型的模范了。如今,无论是桌面、移动 APP 还是浏览器插件,用户都可以轻松体验到基于豆包大模型的智能工具。与此同时,借助扣子平台,用户能够根据需求定制智能体并部署商业应用。而对于开发者来说,有豆包加持的火山引擎更是一个可以创造无限可能的平台。
Doubao 1.5 的更新又进一步提升了前沿大模型的使用门槛,让开发者和专业用户能以更低的成本享受到最前沿的性能。并且豆包大模型还有不同的版本,可以满足不同应用场景下用户对性能与速度的不同需求。也无怪乎豆包大模型能收获那么多开发者用户了。截至去年底,豆包大模型通过火山引擎的日均 token 调用量已经超 4 万亿,较 5 月发布时增长 33 倍。可说是在国内 AI 大模型中真正做到了「遥遥领先」。
不仅如此,豆包大模型团队的前沿探索依然在继续,并且已经抓住了这股「测试时 scaling」热潮。该团队向我们透露,他们目前正在研发「Doubao 深度思考模式」并已经取得了一定的阶段性成果:一个被命名为 Doubao-1.5-pro-AS1-Preview 的推理模型已经能在 AIME 基准上超过 o1-preview 以及 o1。
Doubao-1.5-pro-AS1-Preview 与 o1-preview 和 o1 在 AIME 上的评测结果
豆包还在官方博客上展示了一个有趣的示例:宫廷玉液酒,ebay bar ebay 是啥意思。可以看到,Doubao-1.5-pro-AS1-Preview 不仅成功理解了这句话中暗含的谐音梗,同时还挖掘出了这个梗背后的背景信息,展现了推理能力在不同领域的泛化能力。
据了解,Doubao 深度思考模式同样也采用了业内广泛使用的强化学习方法,并且这些方法还没有完成挖掘出 Doubao-1.5-pro 在推理任务上的全部潜力 —— 持续的强化学习还能继续带来持续的能力提升。
看起来,在这场 AI 大模型的激烈竞争中,豆包大模型已经站稳了脚跟。对于已经到来的 2025 年,即许多人口中的「智能体之年」,豆包大模型已经在各个维度上为今年 AI 应用的爆发做好了准备,它将在这场革命中占据越来越强的主导地位。
性能卓越又价格实惠,开发者朋友们,速速戳链接,免费试了才知道有多香:https://www.volcengine.com/product/doubao
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有