“AI界拼多多”发布Deepseek R1，AI顿悟时刻出现_

大模型价格，这回真让国产大模型打下来了

就在昨晚，距离DeepSeek APP上线十天左右的时间，DeepSeek终于在官宣了DeepSeek-R1 发布，并同步开源模型权重。这一消息在AI圈引来众多网友围观，最令人震惊的是，DeepSeek-R1 API服务定价为每百万输入tokens 1元（缓存命中）/ 4元（缓存未命中），每百万输出tokens 16元，远低于ChatGPT的定价。

OpenAI的一位创始团队成员曾称，以前达到DeepSeek3.0版本这种级别能力通常需16000个GPU，而DeepSeek只用2000个GPU，计算量减少了11倍，这证明AI算法还有很大优化空间。

关于DeepSeek的定价也引发了很多争议，尤其在外国网友看来，由于众所周知的原因，美国封锁AI芯片流向中国，而中国AI怎么可能做到以低成本的算力达到高标准的效果？

针对DeepSeek发布的论文，英伟达高级研究科学家Jim Fan在X上公开表示，我们生活在这样一个时代：由非美国公司保持OpenAI 最初的使命——做真正开放的前沿研究、为所有人赋能。这似乎讲不通，但戏剧性的往往最有可能发生。

R1发布即上线

DeepSeek成为“AI界拼多多”

而本次DeepSeek-R1 在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。在数学、代码、自然语言推理等任务上，性能比肩OpenAI o1正式版。

“DeepSeek 官网与 App 即日起同步更新上线。”这波发布即上线，也是可以看出DeepSeek包容开放的心态，对待大家的猜测也无所畏惧，“不服来测”的心态与实力似乎也在向外界宣布“copy from china”。

在开源DeepSeek-R1-Zero和DeepSeek-R1两个660B模型的同时，通过DeepSeek-R1的输出，蒸馏了6个小模型开源给社区，其中32B和70B模型在多项能力上实现了对标 OpenAI o1-mini 的效果，DeepSeek更被网友称为“源神”。

令人惊喜的是，DeepSeek不仅在“性价比”上远超OpenAI o1正式版，并同步开源模型权重。以往总有人说，科技精神是创新、创业、合作、开放和快速学习。而作为美国AI代表的ChatGPT和Claude则是闭源的，中国多数优秀的大模型以DeepSeek、阿里通义千问为例，均为开源，这种创新机制将助力中国加速AI科技发展。

上月，360集团创始人周鸿祎就曾谈对国产大模型的看法，周鸿祎认为，过去我们是模仿者和追随者，他人擅长从零到一，我们擅长从一到n，如今情况正转变，中国科技领域原发性创新已让全世界看到，过去是“Copy to China”，以后可能是“Copy from China”。

当面对全球算力吃紧的情况下，人工智能行业的发展受限于算力，尤其是在中国，“芯片”卡脖子的背景下，DeepSeek试图用更少的算力、更低的成本来运行更大的模型，而这在外国网友看来是不可能实现的情况下，来自东方的神秘力量狠狠的秀了一波。

尽管目前DeepSeek R1模型在函数调用、多轮、复杂角色扮演和json输出等任务中能力表现上不如DeepSeek - V3，目前针对中文和英文进行了优化，在处理其他语言的查询时可能会出现语言混合问题，DeepSeek也表示未来将探索如何利用长CoT提升R1在通用能力上的表现、解决R1的语言混杂问题、优化R1的提示词策略、将RL应用于软件工程任务，提升R1在该领域的性能、研究如何将R1的推理能力更好地应用于实际场景等。

大模型之家认为，或许DeepSeekR1的出现并非完美，但DeepSeek让高高挂起的论文走入到大众视野，不仅增强了国内科技自信，也为全球AI竞争格局注入了新的活力。

深度思考模式的“aha”moment

成为AI拟人化奇点

其中，DeepSeek被热议的是在DeepSeek-R1-Zero的训练过程中观察到的“顿悟时刻”的出现。

例如，论文中展示了一个在R1-Zero的训练过程中在解决一道数学题时的中间版本输出，模型在推理过程中突然意识到可以“重新评估”之前的步骤，并尝试用一种新的方法来解题。

在深度思考过程中，DeepSeek R1模型能够有自主的思考过程，这一行为，在上周大模型之家的测评中《东方神秘力量上线，DeepSeek APP低调却不奢华？》已有所体验，不知上周的深度思考模式是否已套用了当时R1-Zero/R1模型。

引用的格式大模型之家以构建拉格朗日函数的经典高等数学题进行提问“已知实数x，y 满足x²+y²-4x-2y--4=0，求x-y的最大值”。刚开始DeepSeek给出了一种几何方法来进行解答，尽管结果是正确的，但DeepSeek接下来的思考过程中仍构建了拉格朗日乘数法进行解答，耗时41秒结果正确。

这也与DeepSeek-R1的训练管道相关，论文中也介绍了开发DeepSeek-R1的管道。该管道包括两个旨在发现改进的推理模式并与人类偏好对齐的RL阶段，以及两个作为模型推理和非推理能力种子的SFT阶段。

模型的“顿悟时刻”正是凸显了DeepSeek开发者不是明确地教导模型如何解决问题，而只是提供正确的激励，致使AI能够自主地发展出先进的问题解决策略。“顿悟时刻”的出现有力地提醒了强化学习在解锁人工系统新智能水平方面的潜力。

这一现象也被解读为算法迭代优化的结果。在DeepSeek-R1的训练中，模型通过多轮强化学习逐步优化其推理能力，最终在某一时刻表现出“顿悟”行为。这种优化过程依赖于算法的不断迭代和改进。

“顿悟时刻”的出现展示了模型具有某种程度的自我反思能力，人工智能有可能在更少的人工干预下，自主地发展出更复杂的能力。这为开发更自主、更智能的人工智能系统提供了新的方向，为AGI的研究提供了新的思路和方法，加速了通用人工智能的实现进程。

作为国产大模型的代表，R1在数学推理、代码生成和自然语言理解等核心任务上表现卓越，性能媲美国际顶尖模型，甚至在强化学习（RL）领域实现了首次突破，完全跳过了传统监督微调（SFT）步骤，但在通用模型能力方面仍存在较大的局限性。

大模型之家认为，大模型的商用门槛主要包括技术、成本、数据、生态和监管等方面的挑战。DeepSeek虽然在性能和成本上具有显著优势，但在商用方面仍存在一些不足之处，上下文长度、多模态能力、生态建设和行业适配等方面仍有提升空间。未来，DeepSeek如何从一家纯技术支撑的企业转变为商业化的企业，提升其在商用场景中的竞争力也是首要面对的问题。

头条号入驻

大模型之家洞察企业百态，调查事实真相，每天三次雷打不动的TMT专业爆料平台，欢迎来爆！

财经自媒体联盟更多自媒体作者

今日推荐优秀作者看点月榜

新浪财经头条意见反馈留言板

4000520066 欢迎批评指正

“AI界拼多多”发布Deepseek R1，AI顿悟时刻出现

头条号入驻

毛利率超五成，智能眼镜“蓝海掘金”无利不起早

东方神秘力量上线，DeepSeek APP低调却不奢华？

套壳的ChatPV，成为捷成的笑料

财经自媒体联盟更多自媒体作者

热文排行榜