同时提升摄像机控制效率、视频质量，可控视频生成架构AC3D来了_

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

可控的视频生成需要实现对摄像机的精确控制。然而，控制视频生成模型的摄像机运动（camera control）总是不可避免地伴随着视频质量的下降。近期，来自多伦多大学、Vector Institute、Snap Research 和西蒙・弗雷泽大学（SFU）的研究团队推出了 AC3D (Advanced 3D Camera Control)。AC3D 从基本原理出发，分析了摄像机运动在视频生成中的特点，并通过以下三方面改进了视频生成的效果和效率：

1. 低频运动建模：研究发现视频中的摄像机运动具有低频特性。研究者优化了训练和测试的条件调度，加速了训练收敛，同时提升了视觉和运动质量。

2. 摄像机信息表示：通过研究无条件视频扩散变换器的表示，研究者观察到其内部隐含地进行了摄像机姿态估计。将摄像机条件注入限制在特定子层，既减少干扰，又显著降低了参数数量并提升训练速度和视觉质量。

3. 数据集改进：通过加入包含 20,000 段动态视频的高质量静态摄像机数据集，增强模型区分摄像机运动与场景运动的能力。这些发现促成了 AC3D 架构的设计，从而同时提升了摄像机控制的效率以及视频的质量，使得 AC3D 在具有摄像机控制的生成视频建模中达到了新的技术水平。

视频链接：

https://mp.weixin.qq.com/s/xdSdY_pBts8LMkilGnRmqQ?token=918711206&lang=zh_CN

论文标题：AC3D: Analyzing and Improving 3D Camera Control in Video Diffusion Transformers
论文地址：arxiv.org/abs/2411.18673
项目地址：snap-research.github.io/ac3d/

方法介绍

研究者首先搭建了文生视频扩散模型作为基础模型，对该模型进行分析，从而得到摄像机控制的第一性原理。然后研究者基于这些原理设计了 AC3D。

基础模型：视频扩散模型

AC3D 基于 VDiT（Video Diffusion Transformer）采用了标准的 Transformer 结构进行构建。VDiT 通过在变分自动编码器（VAE）潜空间中执行扩散建模，从文本描述生成视频。模型架构包括：

使用 T5 编码器生成文本嵌入；
通过交叉注意力机制将文本嵌入输入 VDiT；
在潜空间中采用流扩散参数化技术（Rectified Flow Diffusion）进行生成。

具体而言，研究者采用了一种标准设计，预训练了一个具有 11.5B 参数的 Video DiT 模型。该模型包含 32 层，隐藏维度为 4,096，并在 CogVideoX 的潜空间中操作，并使用了流扩散参数化技术（Rectified Flow Diffusion）。基础模型在一个大规模图像和视频数据集上训练，该数据集包含了文本注释，分辨率范围从 17×144×256 到 121×576×1024。

摄像机运动的第一性原理分析

（1）分析 1：运动光谱体积（MSVs）分析

通过运动光谱体积（Motion Spectral Volumes, MSVs）分析，研究者发现摄像机引起的运动主要位于低频段。与场景运动相比，摄像机运动更平滑且更少剧烈变化。并且，84% 的低频运动信息在扩散过程的前 10% 阶段已经确定，后续不会再改变。基于这一观察，研究者调整了训练和测试的噪声条件调度，将摄像机运动注入限制在早期噪声阶段进行训练和推理。这一方法大幅减少了后期干扰，同时提升了视频的视觉质量和运动保真度。

视频链接：

https://mp.weixin.qq.com/s/xdSdY_pBts8LMkilGnRmqQ?token=918711206&lang=zh_CN

（2）分析 2：线性探测的 VDiT 表征

研究者通过线性探测实验，在文生视频网络的每一层训练一个线性层以预测摄像机参数。实验结果显示：

1. 无条件文生视频模型在中间层对摄像机姿态信息预测最为准确；

2. 网络中间层对摄像机参数具有最佳表征，说明模型在早期阶段隐式地注入了摄像机位置信息，并利用后续层指导其他视觉元素生成。

基于此发现，AC3D 将摄像机条件注入限制在前 8 层，从而减少了对其他视觉特征表征的干扰，显著提升了训练速度和生成质量。

（3）分析 3：数据集偏见的分析

传统的具有相机参数的视频数据集（如 RealEstate10k）几乎只有静态场景。这种静态场景视频导致模型难以区分摄像机运动与场景运动，也使得网络过拟合到静态分布上，从而降低了生成视频中文运动场景的质量。然而，在动态视频中预测摄像机运动依然没有很好的开源解决方案。研究者另辟蹊径，构建了一个包含 20,000 个动态场景但使用静态摄像机拍摄的数据集。

这种混合动态场景静态摄像机与静态场景动态摄像机的数据集，显著改善了模型的学习效果。训练后，模型更能分离摄像机运动和场景运动，从而生成更加真实且动态的视频。

摄像机控制方法

为实现摄像机控制，研究者将 ControlNet 模块与 VDiT 结合，形成了 VDiT-CC（VDiT with Camera Control）。具体方法：

1. 用 Plücker 相机表征，通过全卷积编码器对摄像机轨迹进行编码；

2. 使用轻量化的 128 维 DiT-XS 模块处理摄像机编码，并类似 ControlNet 直接将摄像机特征加入到视频特征中进行融合；

3. 只在 256x256 的分辨率中训练摄像机运动注入，因为研究者发现摄像机运动属于一种低频信息。在低分辨率中训练也可以推理在推理高分辨率时实现精准相机控制。

4. 调整训练和推理时的摄像机条件调度，仅覆盖逆扩散轨迹的前 40%。这种噪声调节平均将 FID 和 FVD 指标提升了 14%，并使摄像机跟踪能力在 MSR-VTT 数据集上提高了 30%（该数据集用于评估模型对多样化、超出微调分布场景的泛化能力）。此外，这种方法还增强了整体场景的运动性，我们在实验中对其进行了定性验证。

5. 仅在前 8 个 DiT 块中注入摄像机信息，而将后续的 24 个 DiT 块保持无条件状态。这种设计能够避免摄像机信息与后续层的其他特征表征产生干扰，同时显著减少训练复杂度，提高模型的生成效率和质量。

其他改进：为了进一步提升模型的性能和摄像机控制能力，研究者引入了以下创新：

1. 一维时间编码器：通过因果卷积，将高分辨率摄像机轨迹数据转换为低分辨率表示。

2. 分离文本与摄像机引导：为文本和摄像机信号独立设计引导机制，分别调整每种输入类型的权重。

3.ControlNet 反馈机制：通过交叉注意力，从视频向摄像机提供反馈，优化摄像机表示。

4. 移除摄像机分支的上下文信息：消除上下文干扰，提高对摄像机轨迹的追踪能力。

通过这些方法，AC3D 在摄像机控制效率和生成质量上取得了显著突破，为高质量的文本生成视频提供了新的技术基准。

模型结果

研究者展示了一系列提示词，不同摄像机轨迹下的可控视频生成（总时长 40 秒），通过这些视频可以直观地观察 AC3D 在摄像机控制上的表现。

视频链接：

https://mp.weixin.qq.com/s/xdSdY_pBts8LMkilGnRmqQ?token=918711206&lang=zh_CN

Prompts：

1. 在一个艺术工作室中，一只戴着贝雷帽的猫正在小画布上作画。

2. 在一个未来厨房中，宇航员熟练地用平底锅烹饪。

3. 在一个舒适的厨房里，一只泰迪熊认真地洗碗。

4. 在一个热带海滩上，一只金毛猎犬坐在沙滩上，兴奋地吃着冰淇淋。

5. 在公园的长椅上，一只松鼠用小爪子抓着一个多汁的汉堡，悠闲地吃着。

6. 在一个温馨的咖啡馆里，一只水獭熟练地操作着浓缩咖啡机。

7. 在一个别致的城市厨房里，一只戴着小厨师帽的猫正在揉面团。

8. 在厨房里，一名宇航员正在用平底锅烹饪。

9. 在一个未来感十足的东京天台上，一只戴着耳机的机械考拉在混音。

10. 穿着正式服装的猫坐在棋盘旁，专注于下一步棋局策略。

11. 在一个废墟中，一名孤独的机器人正在寻找可利用的材料。

12. 穿着文艺复兴服饰的小老鼠正优雅地吃着一块奶酪。

总结

AC3D 对视频扩散模型中的摄像机运动进行系统性分析，从而显著提升控制的精度和效率。通过改进条件调度、针对特定层的摄像机控制以及更精确校准的训练数据，模型在三维摄像机控制视频合成方面达到了最先进的性能，同时保持了高视觉质量和自然的场景动态。这项工作为文本生成视频中更精准和高效的摄像机控制奠定了基础。未来的研究将专注于进一步克服数据局限性，并开发适用于训练分布范围外摄像机轨迹的控制机制。

头条号入驻

机器之心Pro 专业的人工智能媒体与产业服务平台。

财经自媒体联盟更多自媒体作者

今日推荐优秀作者看点月榜

新浪财经头条意见反馈留言板

4000520066 欢迎批评指正

同时提升摄像机控制效率、视频质量，可控视频生成架构AC3D来了

头条号入驻

海内外15位博士，每人10万，字节跳动的奖学金越来越「香」了

海内外15位博士，每人10万，字节跳动的奖学金越来越「香」了

同时提升摄像机控制效率、视频质量，可控视频生成架构AC3D来了

财经自媒体联盟更多自媒体作者

热文排行榜