传奇背后：DeepSeek创始人梁文锋的创新认知_

作者：王勇、邓怀宇

导读

2025年开年之际，中国AI公司DeepSeek以远低于众多科技巨头的训练成本、颠覆性的底层架构创新，一跃成为国内外无法忽视的人工智能“新生力量”，引发了全球范围内的广泛关注。我们注意到DeepSeek创始人梁文锋作为一个连续创业者，其企业经营管理经验、对创新（技术、生态、组织、人才等）的深度认知，在DeepSeek的异军突起中发挥了关键作用。

一、坚信人类智能与AGI之间并非不可跨越

DeepSeek的诞生，与创始人梁文锋十余年的创业经历和创新思考紧密相连。在浙江大学攻读电子工程及人工智能方向时，梁文锋就坚信人类智能与通用人工智能（AGI）之间并非不可跨越。

梁文锋对AGI的技术追求最开始体现在量化投资领域。2008年，研究量化对冲；2015年创立幻方量化（High-Flyer），运用AI驱动策略交易，使幻方量化一度跻身国内量化私募四巨头之一。

2023年，梁文锋决定将多年在AI方面的研究经验，从量化投资场景拓展至更广阔的大模型领域，并于7月正式成立DeepSeek，专注于大模型与通用人工智能研究。

在许多AI创业者急于将产品变现的环境下，梁文锋依然坚持以AGI为最终目标，他认为当前多种生成式AI应用产品的出现，仅仅是迈向通用智能的过渡阶段，对于DeepSeek来说，在这一进化历程中，对AGI的好奇与探索比商业回报更具驱动力。他在采访中直言：“这一波大模型浪潮只是起跑线，AGI并非遥不可及，我们这代人很可能就能见证。”因此，DeepSeek从创立之初便选择研究优先，暂缓直接面向C端的应用产品落地，与“快变现、抢市场”的AI创业主流趋势形成鲜明对比。

二、注重技术投入，敢于在竞争激烈的市场中选择差异化技术路线

DeepSeek当前取得的技术突破，离不开前几年梁文锋创立幻方量化时在人工智能技术上的巨额投入。据报道，幻方量化自2019年起持续加大在人工智能相关基础设施和算力方面的投入：从最初搭载1000多块GPU、耗资近2亿元的“萤火一号”，到2021年拥有上万块英伟达A100显卡、耗资逾10亿元的“萤火二号”，幻方量化由此成为国内少数拥有大规模算力的金融机构。彼时外界对此尚不理解，但梁文锋强调：“AI的三大核心要素之一就是算力，越早投入，越能催生更多原创技术火花。”

不仅如此，梁文锋对技术创新有其独特的追求，敢于在竞争激烈的市场中选择差异化技术路线，由此实现底层训练逻辑和底层架构上的颠覆性创新。

DeepSeek在2024年底至2025年初发布的R1系列模型，尤其是R1-Zero，首次大规模验证了纯强化学习在大模型训练中的可行性。不同于此前大模型对复杂神经网络奖励、监督学习以及人类示例的高度依赖，DeepSeek仅用极简的奖励规则，就能让大模型在自然语言推理和数学推理领域通过自我博弈与原始奖惩信号不断顿悟与自适应调整。美国艾伦人工智能研究所研究员Nathan Lambert称：“DeepSeek R1-Zero在推理层面开启了一个重要转折点，可谓纯RL推动大模型的‘开山之作’。”

除了颠覆性的底层训练逻辑外，DeepSeek还在底层架构上开创了全新的MLA（多头潜在注意力机制）和DeepSeekMoESparse结构。尽管注意力机制已提出多年，但很少有企业敢于在激烈的市场竞争下大规模改动其核心架构，大多数企业倾向于沿用GPT、Llama等成熟架构进行稳健迭代。而DeepSeek反其道而行之，选择差异化底层架构路线，直接将显存占用压缩至传统多头注意力（MHA）架构的个位数百分比，使推理成本比竞品低了7至10余倍，成功实现了大幅度的成本削减，带动整个大模型产业链的服务成本迅速降低。

三、通过开源建立商业生态影响力，打造创新合力

OpenAI自GPT-4起不断强化闭源策略，国内不少大厂也倾向于将关键技术封装进云服务。与之相反，DeepSeek坚持“开源 + 生态共建”策略，以极具竞争力的API定价让用户广泛受益。如今，国内许多云厂商、AI创业公司及中小企业都能以较低成本使用DeepSeek推理模型，正如DeepSeek的愿景所说：“让更多人真正用得起AI”。DeepSeek也因开源在国际AI圈引发了极大关注并获得了广泛的尊敬。据相关报道，Meta、Anthropic等海外AI巨头团队都在研究或借鉴其部分架构创新。甚至有美国学者将“OGOpenAI.com”域名定向至DeepSeek，以表达对其开放精神的敬意。

在梁文锋看来，闭源或许短期内能帮助企业形成竞争优势，但要在更长周期内激发社会层面的创新合力，必须让更多研究者和创业者能够以低门槛使用底层大模型。当然，DeepSeek开源也并非“赔本赚吆喝”。通过提供规模化服务，DeepSeek得以持续优化其底层结构，从而更好地为用户提供优质的大模型服务，进而吸引更多的用户融入DeepSeek商业生态，不断拓展DeepSeek商业生态的边界。这不仅确保了DeepSeek能够长久保持可观收益，还促进了推动整个人工智能行业的进步与发展。

四、信任年轻人，相信热爱、好奇与自由能够打破经验的路径依赖

在引发全球轰动后，DeepSeek的研发团队备受关注。令人惊讶的是，其核心团队几乎全是应届毕业生和工作两三年的研究员。创始人梁文锋多次表示：“本土年轻人才一样可以做到世界一流。”

DeepSeek在发展过程中并不急于从海外聘请明星级专家，而是大量招聘应届生、博士生或毕业不久的研究员，为他们提供充足的资源与独立立项权。只要能证明思路可行，任何员工都可调动海量GPU算力进行大规模训练，也可以跨小组自由组队攻关。一些新入职数月的年轻人，就迅速成长为项目技术负责人，并在实践中迸发出全新的思路。

在梁文锋的带领下，DeepSeek相信纯粹的热爱和内在好奇心往往能打破经验的路径依赖。据内部员工透露，DeepSeek内部工作氛围“极度自由”，更少官僚文化和KPI 压力，更注重鼓励每个人“做自己想做的研究”。正如梁文锋所言：“创新往往不是被安排出来的，更不是KPI考核教出来的，而是源自自下而上的热爱与奇思。”

此外，DeepSeek在组织层面几乎没有明确的行政层级。早在量化投资时期，团队就已形成“反层级”基因，在大模型阶段更是没有部门边界：每个人既是工程师，也是研究员；管理者的主要职能是在当一个Idea显示出潜力时，自上而下地去调配资源。而梁文锋作为老板依旧每日深入一线，每天都在写代码、跑代码，甚至身边同事评价梁文锋：完全不像一个老板，而更像一个极客。

DeepSeek的出现并非偶然，凭借梁文锋对AGI前景的坚定信心、对技术创新的尊重、对商业生态的理解、对青年人才的信任，其迅速成为全球AI界的焦点。无论是低成本高效率的技术路线，还是开源普惠的生态理念，都在激发行业对大模型新范式的再思考。DeepSeek的故事还在继续，留给外界的问题是：中国AI能否借此契机迎来更多自发涌现的硬核创新，中国企业在0-1的问题上能否取得更大的突破？我们拭目以待。