深度拆解 Sora：技术的惊喜与失望，「世界模型」的可能与想象

用声音，听见真格。

「此话当真」是一档泛商业类播客，我们希望搭建这样一个分享和交流的平台，让每一个对商业、科技、创投充满好奇的人都能在这里有所收获。每期播客将会由不同的真格投资人担任主持，和各领域的领军人物一起带大家深入了解科技趋势，以及创新技术的影响力。交流科技热点，我们只想给你最专业的解读。

当然，我们希望这不仅仅是一个播客，更是一次创业的探索。真格，你的创业第一站！我们期待与你相遇，一同发现新的可能。

距离 OpenAI 公开发布文生视频大模型「Sora」已过去十多天，但 Sora 引发的轰动与热议还远未平息。

在上一期节目中，我们从身处一线的创业者、资深投资人视角出发，探讨了其背后的商业洞察与技术创新。收听更多

这一次，我们邀请到了两位硅谷顶尖 AI 研究员参与探讨，希望能从技术根源出发，理解和把握潮流本质。硬核科技，极致烧脑，准备好接受挑战了吗~

在本期节目中，我们还讨论了 Sora 的真正创新与局限是什么？Scaling Law 的暴力美学背后，还有哪些容易被忽略的技术细节？Sora 对于产生我们期望的世界模型意味着什么？

深度拆解 Sora：技术的惊喜与失望，

「世界模型」的可能与想象

嘉宾介绍

于立军：卡内基梅隆大学人工智能领域的博士生，北京大学本科。CMU 导师是 Alexander Hauptmann 博士，聚焦于多媒体的研究。曾在 Google DeepMind 工作。

符尧：爱丁堡大学博士生，北京大学本科，哥伦比亚大学硕士。研究方向是人类语言的大规模生成模型，包括数据工程，复杂推理长上下文，以及模型背后的科学原理。开源社区 LLaMafia 创建人。

时间轴

03:05 Sora VS VideoPoet：胜在时长和分辨率

05:02 语言模型规模扩大之后：走向多模态基础模型的一大步

10:06 Sora 的核心贡献：高质量的数据集

12:25 新近研究结果：超长 transformer 或可在成本增长可控的情况下实现

17:37 Compression Network 为什么重要？学习空间的生成逻辑

22:44 Sora 的特别之处：Diffusion Denoising 的训练方式

27:57 Sora 与 GPT 结合的可能性

33:05 理想的「世界模型」要能够「预测未来」

38:02 大模型能够理解更多细分场景下的精细化规则

46:26 Sora 会是多大的模型？

58:47 Sora 能实现 In-Context Learning 吗？

01:05:49 10 秒长度的视频或许只要 1 分钟就能生成：推理速度的提升空间巨大

01:08:28 性能提升的门槛与初创公司的挑战

01:11:28 「有多少人工就有多少智能」

01:15:58 让聪明人去更新模型架构，还不如去清洗数据效果好

01:22:01 用合成数据做训练：大模型「活在」人造世界里

01:28:36 缺乏交互的情况下，「生成的多样性」可能被高估了

01:32:17 在算力相对不足的情况下实现模型效果，这才是有挑战的地方

01:37:45 论文被拒，却做出惊艳世界的产品：「大力出奇迹」VS 学术创新

01:39:32 硬件「突围」、融合战略、多模态交叉与「涌现」的想象力

提到的论文

头条号入驻

真格基金真格基金，创业者的垫脚石。

今日推荐优秀作者看点月榜

4000520066 欢迎批评指正