悄然上线,DeepSeek 又有新动作!

悄然上线,DeepSeek 又有新动作!
2025年03月25日 15:22 数据观资讯平台

DeepSeek-V3-0324

3 月 24 日深夜,DeepSeek 悄然上线 V3 模型的升级版本 DeepSeek-V3-0324。

编辑 |  数据君

3 月 24 日深夜,DeepSeek 悄然上线 V3 模型的升级版本 DeepSeek-V3-0324,并非市场此前一直期待的DeepSeek-V4或R2。目前,其开源版本已上线Hugging Face。此次升级不仅参数规模跃升至6850亿,更在代码生成、数学推理、硬件适配等维度实现突破。

同日,DeepSeek在其官方交流群宣布称,DeepSeek V3模型已完成小版本升级,欢迎前往官方网页、App、小程序试用体验(关闭深度思考),API接口和使用方式保持不变。

体验地址

Hugging Face模型下载:

https://huggingface.co/deepseek-ai/DeepSeek-V3-0324/tree/main

OpenRouter免费试用:

https://openrouter.ai/chat?models=deepseek/deepseek-chat-v3-0324:free

技术突破:6850 亿参数 MoE 架构再进化

作为去年12月发布的初代V3模型的迭代版本,V3-0324延续了“极致性价比”的技术路线。通过FP8精度训练与动态专家路由机制,计算效率提升100%;新增的偏差项负载均衡技术,有效解决了传统MoE模型的专家过载问题。在保持6850亿参数量级的同时,激活参数规模控制在370亿,推理速度较前代提升1.8倍。

开发者社区实测显示,V3-0324 在复杂场景下的代码生成能力已接近 Claude 3.7 Sonnet 水平。例如,处理多线程异步任务时,模型能自动生成符合工程规范的代码结构,并主动标注潜在性能优化点;生成动态天气卡片动画时,其代码逻辑完整性与实现效果与闭源模型难分伯仲。

性能跃迁:从代码到数学的全面突破

此次升级在编码领域的提升尤为显著。开发者仅需简单文本提示,即可快速生成包含响应式布局、CSS 动画和 JavaScript 交互的完整网站代码。数学推理能力同步跃升。V3-0324 在 AIME 2025 竞赛题中展现出类似专业推理模型的解题逻辑,甚至能识别推理循环并自主回溯修正。

有网友表示,经过自己的测试,DeepSeek-V3-0324 在数学推理和前端开发方面的表现优于 Claude 3.5 和 Claude 3.7 Sonnet。

开发者生态:开源协议与工具链全面升级

此前于2024年12月发布的DeepSeek-V3模型曾以“557.6万美金比肩Claude 3.5效果”的高性价比著称,其多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

DeepSeek 延续开源战略,将 V3-0324 的开源协议升级为与 R1 一致的 MIT 许可,允许模型蒸馏、商用等行为。权重文件已火速上线 Hugging Face,688GB 的存储规模与初代 V3 保持一致。

苹果机器学习工程师、AI 研究员 Awni Hannun 在社交媒体 X 上表示:“4 位量化后的 DeepSeek-V3-0324,在搭载 mlx-lm 的 512GB M3 Ultra 上,推理速度可达每秒 20 个 token!”

此外,用户可通过关闭 "深度思考" 功能获取更快响应,适合简单问答或代码片段生成;保留的深度思考模式则针对复杂任务提供详尽解析。

但截至目前,还没有任何关于新版 DeepSeek-V3的能力基准测试榜单出现

尽管V3-0324并非推理模型,但其展现出的逻辑推理能力已接近部分闭源产品。社区普遍认为,此次升级可能是DeepSeek-R2的技术预演。随着开源生态的不断完善,DeepSeek正以“极致性价比+灵活开源策略”挑战闭源模型的统治地位,或将加速AI从“玩具”向“全民生产力工具”的转变。

0条评论|0人参与网友评论
最热评论

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部