深度拆解 Sora:技术的惊喜与失望,「世界模型」的可能与想象|此话当真 EP19

深度拆解 Sora:技术的惊喜与失望,「世界模型」的可能与想象|此话当真 EP19
2024年02月28日 16:38 真格基金

用声音,听见真格。

「此话当真」是一档泛商业类播客,我们希望搭建这样一个分享和交流的平台,让每一个对商业、科技、创投充满好奇的人都能在这里有所收获。每期播客将会由不同的真格投资人担任主持,和各领域的领军人物一起带大家深入了解科技趋势,以及创新技术的影响力。交流科技热点,我们只想给你最专业的解读。

当然,我们希望这不仅仅是一个播客,更是一次创业的探索。真格,你的创业第一站!我们期待与你相遇,一同发现新的可能。

距离 OpenAI 公开发布文生视频大模型「Sora」已过去十多天,但 Sora 引发的轰动与热议还远未平息。

在上一期节目中,我们从身处一线的创业者、资深投资人视角出发,探讨了其背后的商业洞察与技术创新。收听更多

这一次,我们邀请到了两位硅谷顶尖 AI 研究员参与探讨,希望能从技术根源出发,理解和把握潮流本质。硬核科技,极致烧脑,准备好接受挑战了吗~

在本期节目中,我们还讨论了 Sora 的真正创新与局限是什么?Scaling Law 的暴力美学背后,还有哪些容易被忽略的技术细节?Sora 对于产生我们期望的世界模型意味着什么?

深度拆解 Sora:技术的惊喜与失望,

「世界模型」的可能与想象

嘉宾介绍

于立军:卡内基梅隆大学人工智能领域的博士生,北京大学本科。CMU 导师是 Alexander Hauptmann 博士,聚焦于多媒体的研究。曾在 Google DeepMind 工作。

符尧:爱丁堡大学博士生,北京大学本科,哥伦比亚大学硕士。研究方向是人类语言的大规模生成模型,包括数据工程,复杂推理长上下文,以及模型背后的科学原理。开源社区 LLaMafia 创建人。

时间轴

03:05  Sora VS VideoPoet:胜在时长和分辨率

05:02  语言模型规模扩大之后:走向多模态基础模型的一大步

10:06  Sora 的核心贡献:高质量的数据集

12:25  新近研究结果:超长 transformer 或可在成本增长可控的情况下实现

17:37  Compression Network 为什么重要?学习空间的生成逻辑

22:44  Sora 的特别之处:Diffusion Denoising 的训练方式

27:57  Sora 与 GPT 结合的可能性

33:05  理想的「世界模型」要能够「预测未来」

38:02  大模型能够理解更多细分场景下的精细化规则

46:26  Sora 会是多大的模型?

58:47  Sora 能实现 In-Context Learning 吗?

01:05:49  10 秒长度的视频或许只要 1 分钟就能生成:推理速度的提升空间巨大

01:08:28  性能提升的门槛与初创公司的挑战

01:11:28  「有多少人工就有多少智能」

01:15:58  让聪明人去更新模型架构,还不如去清洗数据效果好

01:22:01  用合成数据做训练:大模型「活在」人造世界里

01:28:36  缺乏交互的情况下,「生成的多样性」可能被高估了

01:32:17  在算力相对不足的情况下实现模型效果,这才是有挑战的地方

01:37:45  论文被拒,却做出惊艳世界的产品:「大力出奇迹」VS 学术创新

01:39:32  硬件「突围」、融合战略、多模态交叉与「涌现」的想象力

提到的论文

  • VideoPoet: A large language model for zero-shot video generation, by Lijun Yu

  • Scalable Diffusion Models with Transformer, by William Peebles, Saining Xie

  • WALT: Photorealistic Video Generation with Diffusion Models, by Lijun Yu

  • World Model on Million-Length Video And Language With RingAttention

  • Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution

  • ViViT: A Video Vision Transformer

相关资料

VideoPoet:Google 于 2023 年底发布的专注于视频生成的大语言模型,能够执行各种视频生成任务。和绝大多数视频领域模型不同,VideoPoet 并没有走 diffusion 的路线,而是沿着 transformer 架构开发,将多个视频生成功能集成到单个 LLM 中,证实了 transformer 在视频生成任务上的极大潜力。

Encoder-Decoder:编码器与解码器。编码器将输入序列转换成一个固定长度的上下文向量。解码器从上下文向量中生成输出序列。

Scaling Law:在计算机科学和数学中,扩展定律(Scaling Law)是描述系统随着其规模的增长而发生的变化的定律。这些定律通常用于分析大规模系统的行为,尤其是在计算机科学中研究系统性能和效率时经常会用到。

Transformer:Transformer 模型是一种用于自然语言处理(NLP)和其他序列到序列(sequence-to-sequence)任务的深度学习模型。它由 Vaswani 等人在 2017 年的论文《Attention is All You Need》中提出,其主要创新是引入了自注意力机制(self-attention mechanism)。

Autoregression Model:自回归模型,基于时间序列自身的历史值来预测未来值,通过将当前时刻的观测值与前一时刻的观测值之间的关系进行建模。

Diffusion Models:通过学习把图像逐步变成纯噪声的逆操作,把任何一个纯噪声图像变成有意义的图像,从而完成图像生成。

Video Compression Network:将原始视频作为输入,通过一个视频压缩网络将其转换为在时间和空间上压缩的潜在表示,以减少模型的计算负担和提高训练效率。

Data Curation:对数据集中的数据进行选择、清理和组织,以获得高质量的用于训练模型的数据集。

Stable Diffusion:经过训练可以逐步对随机高斯噪声进行去噪以获得感兴趣的样本,例如生成图像。在像素空间中运行,去噪过程的时间和内存消耗都非常昂贵。

Latent Diffusion:能够在较低维度的潜空间上应用扩散过程而不是使用实际的像素空间,因此可以减少内存和计算成本。

Latent Space:机器学习模型学习到的数据的低维表示。这种压缩表示捕捉了数据中的基本特征和关系,使模型能够高效地执行任务。

Pixel Space:像素空间。

Context Window:指语言模型在进行预测或生成文本时,所考虑的前一个 token 或文本片段的大小范围。较大的上下文窗口可以使模型做出更准确的预测或生成。

Consistency Model:一种生成模型,可以在采样中生成高质量的数据而不需要对抗训练。通过从预训练的扩散模型中 Distil(蒸馏)知识和采用学习指标来得到最佳的样本质量。但是 Distil 限制了 Consistency Models 的质量不能超过预训练的扩散模型。

Sparse Attention:处理大规模数据时,只关注数据中的一小部分,以提高计算效率。

In-Context Learning:在大型语言模型(如 GPT-3)中流行的机器学习方法,可以根据几个实例理解任务并提供答案。此方法使模型能够利用接收到的输入数据快速适应新任务,无需额外的参数更新或训练。

Curve Fitting:曲线拟合。

你可以通过小宇宙、苹果 Podcast 、喜马拉雅收听我们。如果你对节目有任何的建议与期待,欢迎在留言区互动~

如果你有任何的创业想法或是有合作的想法,欢迎发邮件到 media@zhenfund.com !

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部