DeepSeek崛起让美国芯片禁令变得毫无意义?

DeepSeek崛起让美国芯片禁令变得毫无意义?
2025年01月26日 23:14 科技边角料

眼下中国大模型技术和产业链发展速度有目共睹,Deepseek和阿里巴巴在开源方面已经领先Meta,是世界范围内开源最强者之一,而且目前国内发布的推理模型效果基本和o1打平,虽仍弱于o3,但是技术路线走通了追上甚至赶超是必然的,只是时间问题。

DeepSeek的崛起,意味着中国有掌握下一个时代行业标准的机会,或许能也让美国的芯片禁令,变得毫无意义。

然而有人问,DeepSeek真的会改变全世界AI的竞争格局?

首先,我们先达成个共识,就是AGI不会短期内实现,这个短期是起码十年以上,那么就不会有一个全知全能的AGI模型出现,各个行业还是需要一些根据业务需求定制的多种多样的模型。

其次,训练模型的只要成本在于预训练阶段,后训练阶段只占算力成本的10%不到。

传统的 SFT阶段,模型只能吸收来自标注样本的知识,效果很一般,而且容易过拟合。

DeepSeek V3开创了一种新范式:不差钱的理想主义色彩的公司去训练更大更好的模型,然后开源出来。

各个行业利用这个更大更好的模型去蒸馏各个领域的专用模型。

具体的业务再在蒸馏模型基础上做微调。

如果对模型没有太多定制化要求的领域,直接调用API。

此后整个行业形成了一条分工协作的产业链,上下游企业各司其职,各自发挥比较优势。

DeepSeek这样的企业有钱有技术,承担超大模型预训练。

各个行业的龙头企业有行业知识,有一定算力,做行业领域的蒸馏。

各个具体业务组织,具备具体的业务知识和落地场景,做定制化的微调和工程落地。

一旦这样的格局形成,那么中国的全产业链优势就能发挥了。

算力卡脖子的问题也解决了,反正只有大模型预训练阶段最消耗算力,那么哪怕走私也能。

天眼查App显示,DeepSeek关联公司杭州深度求索人工智能基础技术研究有限公司,注册资本1000万元,法定代表人裴湉,由宁波程恩企业管理咨询合伙企业持股99%,梁文锋持股1%。

究其原因,第一点在于 DeepSeek 开源。

开源在当前是一种正义的大旗,OpenAI 的模型再强,大家也是雾里看山,OpenAI 从 GPT-3 开始就变成了彻头彻尾的 ClosedAI,可以说除了引爆这一轮生成式大语言模型的浪潮外,给大家提供一个模糊的图景外,对开源社区几乎没有帮助。

而 DeepSeek 则不然,DeepSeek 不仅完全开源,而且放出了详细的技术报告;不仅开源了自己最大的 671B R1 模型,还「顺带手」帮大家蒸馏量化好了 1.5B~70B 多个尺寸的模型;不仅是面子上开源,甚至选择了最宽松的 MIT License 协议,允许任何人免费使用、修改、分发,包括用于商业用途。国外很多人为 DeepSeek 举大旗,愿意用户 DeepSeek 为真正的 OpenAI。

LeCun 在蹭 DeepSeek 热度的时候发了这么一篇贴子:

对于那些看到 DeepSeek 表现出色并认为「中国在人工智能上超越了美国」的人,你们理解错了。正确的理解应该是:「开源模型正在超越私有模型。」。DeepSeek 受益于开放研究和开源(例如 Meta 的 PyTorch 和 Llama)。他们提出了新想法,并在他人的基础上进行构建。因为他们的工作是公开发布并开源的,每个人都能从中获益。这就是开放研究和开源的力量。

第二,DeepSeek 的训练成本出乎意料的低。

这一点来自于 DeepSeek V3 的技术报告中:

DeepSeek V3 总训练成本为 278.8 万 H800 GPU 小时,仅 557.6 万美元。

这是什么概念呢?一个 Meta 的内部员工匿名爆料说,Meta 的生成式 AI 部门对 DeepSeek 感到恐慌,原因是他们随便一个管理人员的薪资就超过了 DeepSeek V3 的总训练成本,他们根本无法向高管解释这件事。

这也是一些人所说的,DeepSeek V3 很大程度上改变了大模型市场的根本逻辑,过去以为非常烧钱的现在发现未必需要。而这背后是来自于 DeepSeek 在架构和 AI Infra 上的创新工作。

第三是 DeepSeek 模型的性能确实强。

模型评测具有相当的选择性,好用不好用也视使用场景而定,不能有某几个具体的问题去肯定或否定某个模型。DeepSeek V3 能赢 GPT-4o,R1 能赢 o1 也都是某些评测结果。

但我还是要说,考虑到 DeepSeek 免费提供使用,且 API 价格非常便宜,那么综合考虑用户使用成本,DeepSeek 的体验就是 T1 级别的。

这一点有大模型竞技场 Arena 佐证,不过由于 DeepSeek R1 的打分数据量尚少,所以其置信区间相对较大,也意味着成绩可能还不太稳定。

第四,DeepSeek 来自幻方量化而不是传统互联网大厂,更具理想主义气息。

DeepSeek 创始人梁文锋这几天也是关注的焦点,大家说他上新闻联播,翻出来他以前的发言逐字解读,颇有种造神的意味。

但 DeepSeek 相比于其他模型,确实商业气息更少一些,也更像一个小而美的研究机构,而非功利性的 AI 企业。这就天然地带来了话题上的反差,更容易引起讨论。

美国现在已经明牌要挑起 AI竞赛,特朗普在宣布 5000 亿美元投资的星际之门时说,这些投资如果不流向美国,就很可能会流向中国。这里非此即彼的竞争意味非常明确,不少人把星际之门解读为新星球大战计划。

不论是白宫对芯片的禁令,还是 OpenAI 等 AI 企业联合起来的呼吁,都在明确一件事,就是遏制中国的 AI 发展,确保美国的领先地位。

在这个关键时刻,中国企业做出了 DeepSeek,这对于国内来说就是很振奋的事情,叠加上前面讲到的 DeepSeek 训练成本极低,在一定程度上也削弱了对高性能显卡的依赖。

这对于美国来说是不可接受的。但是这件事的的确确真真正正地发生了,这有很有趣了,下一步走向会很微妙,也许 DeepSeek 会成为我们手中的关键一招。

当然也意味以后全世界的工程师都可能会从qwen和ds开始学习大模型。如果这个趋势有幸保持,我们或许可以看到互联网产业第一次由中国公司掌握基建标准的案例。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部