这是激进投资AI的锦秋基金，从硅谷带回的二十五条关键认知_

2025年初，中国国内目前最活跃的AI投资机构之一的锦秋基金，组织了一场硅谷的 Scale With AI 活动。

5天4晚里，OpenAI、xAI 、Anthropic、Google、Meta、Perplexity、Luma、Runway 等关键AI公司以及很多硅谷的投资机构集中分享了硅谷AI的最新进展，以及他们对2025趋势的很多预测和判断。

作为这个活动背后的攒局者，锦秋基金不仅投资了北美的一些活跃的AI基金，与全球AI市场建立连接，也特别推出了Soil种子计划，以激进的、快速灵活决策的方式支持AI领域的早期创业者。过去的2024年，锦秋频繁出手了AI达人营销平台Aha Lab、AI内容平台造梦次元等诸多项目。

以下是本次硅谷行整理出的关于AI进展的二十五条重要认知，共分为大模型、视频模型、AI应用以及具身智能四个部分。

关于大模型：Scaling law是否达到瓶颈以及硅谷创新的来源

1.对 LLM 来说，Pre-training 的时代已基本结束了，但 post-training 还有很多机会。此外，在 Pre-training 投入少的原因，更多在于资源有限，而做 Post-training 的边际效益会更高，所以，Post-training还有很多机会。

2．先有 Pre-training，才有 Post-training 中的 RL，模型得有基础能力，RL 才能有的放矢。RL 不改变模型的智力，更多是思考模式。相比来说，Pre-training 是 imitation，只能做到模仿，而RL 是创造，可以做不同的事。

3、一些可能明年成为共识的预判。比如Model 架构可能变化；闭源和开源差距会大幅缩小；关于合成数据，大模型生成数据然后训练小模型是可行的，反过来比较难。合成数据和真实数据的区别主要是质量问题。也可以用各类数据拼凑合成，效果也很好。pretraining 阶段可用，因为对数据质量要求不高。另外，每家拼凑的方式都不一样，用更大模型生成训练小模型是可以的，用小的模型训练大模型的话，近一年可能好点。而本质都是数据来源问题。

4.Post training 团队建设，理论上5 人足够（不一定全职）。比如一人搭建 pipeline（infrastructure），一人管数据（数据效果），一人负责模型本身 SFT，一人负责产品对模型编排做判断，收集用户数据等。

5. 关于硅谷创新的秘密由来，其中一个重要因素就是他们的公司很容易形成一种扁平的组织文化。像openAI,就并没有所谓特定的decision maker,每个人都很自主自由，团队之间的合作也很自由。而老牌的谷歌也在悄悄裁撤中间层，让很多曾经的manager转一线。

关于视频模型： Scaling Law的瓶颈还很早

6、视频生成还处于 GPT1 和 2 的时间点。现在视频水平接近 SD1.4 的版本，未来视频会有和商用性能差不多的开源版本。当前的难点是数据集，视频因为版权等问题没有那么大的公用数据集，每一家如何获取、处理、清洗数据会产生很多不同，导致模型能力不同，开源版本的难度也不同。

7.DiT 方案下一个比较难的点在于如何提升物理规律的遵循，而不只是统计概率。视频生成的效率是卡点。目前要在高端显卡上跑挺久，是商业化的障碍，也是学术界在探讨的方向。类似 LLM 虽然模型迭代速度在放缓，但应用没有放缓。从产品角度，只做文生视频不是一个好的方向，相关的偏剪辑、创意的产品，会层出不穷，所以短期内不会有瓶颈。

8.会有 1～2 年才能达到 DiT 技术路线的饱和。DiT 路线很多可以优化的地方。更高效的模型架构，是非常重要的。以 LLM 为例，一开始大家都在往大了做，后面发现加 MOE 和优化数据分布后，可以不用那么大的模型去做。需要投入更多研究，一味 scale up DiT 非常不高效。视频数据如果把 YouTube、TikTok 都算上，数量非常大，不可能都用于模型训练。

9.视频的 scaling law，在一定范围内有，但远达不到 llm 的级别。现在最大级别的模型参数也就是 30b。30b 以内证明是有效的；但 300b 这个量级，就没有成功案例。现在做法中，不同主要是在数据上、包括数据配比，其他没有大不同。

10.Sora 刚出来大家都认为会收敛到 DiT，但实际上还有很多技术路径在做，例如 based on GAN 的路径，以及 AutoRegressive 的实时生成，比如最近很火的项目 Oasis，还有把 CG 和 CV 结合去实现更好的一致性和控制。每一家都有不同的选择，未来面向不同场景选择不同的技术栈会是一个趋势。

11.长视频生成提速的技术方案，能看到 DiT 能力极限在哪，模型越大、数据越好，生成的清晰度更高、时间更长、成功率更高。DiT 模型能 scale 到多大，目前没有答案。如果到一定尺寸出现瓶颈，可能会有新的模型架构出现。从算法角度，DiT 做出一个新的推理算法，来支持快速。比较难的是怎么在训练的时候把这些加上。

12.视频模态的训练数据其实还有很多，而且怎么样高效地选择出高质量数据比较重要。数量取决于对版权的理解。但算力同样是瓶颈，即便有那么多数据，也不一定有算力去做，尤其是高清的数据。有时候需要基于手头有的算力去反推需要的高质量数据集。高质量数据一直都是缺的，但即便有数据，很大的问题是大家不知道什么样的图像描述是对的，图像描述要有哪些关键词。

13.视频生成的真实度主要靠基模能力，美学提升主要靠 post training阶段，比如海螺就大量用影视数据。视觉模态可能不是更好的通向 AGI 的最好的模态，因为文字是通往智能的捷径，而视频和文字之间的效率差距是几百倍。

14.多模态模型还在很早期阶段。给前 1 秒视频 predict 后面 5 秒已经很难了，后面加入 text 可能会更难。理论上视频和文字一起训是最好的，但是整体做起来是很难的。多模态目前不能提升智力，未来也许是可以的。

关于AI 应用：硅谷的趋势和国内不太一样

15.硅谷 VC 倾向于认为 2025 年是有应用投资的大机会。他们投资 AI 产品的标准之一：最好只做一个方向，让竞品很难复制。也需要有一些网络效应：要么是难以复制的洞察力；要么是难以复制的技术 Edge；要么是他人无法获得的垄断资本。否则很难称之为创业，更像是一门生意。而且在美国，基本没有 killer apps for everyone。大家习惯于在不同场景中使用不同功能的 App，关键是让用户体验尽可能的无障碍。

16、硅谷 VC 认为AI产品公司是新物种，和之前的SaaS很不一样，找到了 pmf，它的 revenue booming 是非常快的，真正 value creation before hype 是在 seed 阶段；大模型很注重预训练，应用公司更注重 reasoning。每个行业有固定的看问题的方式和方法，新出现的 AI Agent 是在 LLM 的基础上加入了 Cognitive Architecture。

17.VC 里的小众观点是可以有条件考虑投资中国创业者。原因是新一代中国创始人很有活力，很有能力做很好的生意模式。但前提是 base 在美国。中国及中国创业者在做很多新的尝试，但是国际投资人不了解，所以也是一个价值洼点。

18.硅谷的 VC 都在想办法建立自己的投资策略。Soma Capital的策略是建联最优秀的人，让最优秀的人介绍他的朋友，创建 Life Long Friendship。在过程中 inspire、support、connect 这些人；建立全景地图，包括市场细分和项目 mapping，想做数据 Driven 的投资。会从 Seed 投资到 C 轮，观测成功/失败样本；Leonis Capital是研究驱动的风险投资基金，主要是 First Check。OldFriendship Capital则是Work first，invest later，会和 founder 先一起工作，打客户访谈，确定一些访谈 guideline，一起搞清楚产品的问题，类似咨询工作。投中国项目，在工作中可以判断中国 founder 是否有机会能够和 US Customer 一起工作。

19.Storm Venture喜欢 Unlocking Growth，比较喜欢 A 轮有 PMF 的公司，他们通常获得了 1-2M 的收入，然后去判断是否存在 Unlocking growth 支撑他们涨到 20M。Inference venture认为壁垒应建立在人际关系和领域知识。

20．OpenAI研究员创办的 Leonis Capital 有几个关于 2025 年的AI预测。比如会有一款 AI 编程的应用走红；比如模型提供商开始控制成本，创业者需要去选择 model/agent 创造一个独特供给；数据中心会造成电力冲击，可能存在新架构重新；新的 framework，模型变小；Multi agent 会变得更加主流。

21 AI Coding 公司模型训练的可能思路，一开始会用模型公司更好的 API来取得更好的效果，即使成本更高，在积累客户使用数据之后，不断地在小场景训自己的小模型，从而不断替换部分 API 场景，以更低成本取得更好的效果。

22. AI Coding 的一个重要趋势是使用推理增强技术，类似于 o3 或 o1 方法。方法可以显著提高代码代理的整体效率。虽然它目前涉及高昂的成本（多 10～100 倍），但它可以将错误率降低一半甚至四分之一。随着语言模型的发展，这些成本预计将迅速下降，这可能使这种方法成为一种常见的技术路线。

关于具身智能：完全具备人类泛化能力的机器人，在我们这代可能无法实现

23：硅谷的一些人认为，具身机器人尚未迎来类似Chatgpt的时刻，一个核心原因在于，机器人需要在物理世界中完成任务，而不仅仅是通过虚拟语言生成文本。机器人智能的突破需要解决具身智能的核心问题，即如何在动态、复杂的物理环境中完成任务。机器人的关键时刻需要满足通用性：能够适应不同任务和环境；可靠性：在真实世界中具有较高的成功率；可扩展性：能通过数据和任务不断迭代和优化等几个条件。

24：机器人数据闭环难以实现是因为它们缺乏类似ImageNet这样的标志性数据集，导致研究难以形成统一的评估标准。另外，数据采集的成本高昂，尤其是涉及真实世界的交互数据。例如，采集触觉、视觉、动力学等多模态数据需要复杂的硬件和环境支持。仿真器被认为是解决数据闭环问题的一种重要工具，但仿真与真实世界之间的“模拟-真实差距（sim-to-real gap）”仍然显著。

25：具身智能面临通用模型与特定任务模型的冲突。通用模型需要具备强大的泛化能力，能够适应多样化的任务和环境；但这通常需要大量的数据和计算资源。特定任务模型更容易实现商业化，但其能力受限，难以扩展到其他领域。未来的机器人智能需要在通用性和专用性之间找到平衡。例如，通过模块化设计，让通用模型成为基础，再通过特定任务的微调实现快速适配。

头条号入驻

36氪 36氪（36Kr.com）是中国领先的科技新媒体，报道最新的互联网科技新闻以及最有潜力的互联网创业企业。

财经自媒体联盟更多自媒体作者

今日推荐优秀作者看点月榜

新浪财经头条意见反馈留言板

4000520066 欢迎批评指正

这是激进投资AI的锦秋基金，从硅谷带回的二十五条关键认知

头条号入驻

倒闭第一步，餐饮改自助

2025的淘宝许愿报告，其实是一篇对未来行业风口的预测

月入几万，敢穿鄂尔多斯「返乡」？

财经自媒体联盟更多自媒体作者

热文排行榜