前沿观注|生数科技与清华大学联合研发，展现中国在AI视频领域的创新_

中国发布首个自研长时长视频大模型Vidu，引领人工智能视频生成新纪元在今日举行的中关村论坛未来人工智能先锋论坛上，生数科技与清华大学联合发布了中国首个长时长、高一致性、高动态性的视频大模型——Vidu。这一重大技术突破标志着中国在人工智能视频生成领域的自主创新能力达到新高度，展现了中国在全球AI竞赛中的强劲动力。Vidu模型采用了团队原创的Diffusion与Transformer融合架构U-ViT，能够一键生成长达16秒、分辨率高达1080P的高清视频内容。这一技术不仅能够模拟真实物理世界，生成细节复杂且符合物理规律的场景，如合理的光影效果和细腻的人物表情，还具备丰富的想象力，能够创造出真实世界不存在的虚构画面，展现出超现实主义内容的深度和复杂性。

Vidu的特点在于其多镜头语言的生成能力，不再局限于简单的固定镜头，而是能够实现远景、近景、中景、特写等不同镜头的动态切换，包括长镜头、追焦、转场等效果，极大地丰富了视频的镜头语言。此外，Vidu展现了对中国元素的深刻理解，能够生成熊猫、龙等特有的中国元素，体现了模型的文化适应性和多样性。Vidu的问世，得益于生数科技团队在贝叶斯机器学习和多模态大模型领域的长期积累和多项原创性成果。其核心技术U-ViT架构由团队于2022年9月提出，是全球首个Diffusion与Transformer融合的架构，早于国际同类技术，展现了中国科研团队的前瞻性和创新实力。在发布Vidu的同时，生数科技还推出了“Vidu大模型合作伙伴计划”，旨在邀请产业链上下游企业、研究机构加入，共同构建合作生态，推动AI视频技术的发展和应用。此次Vidu的发布，不仅代表了生数科技在多模态原生大模型领域的持续创新能力，也预示着中国在全球AI视频技术竞赛中的地位日益凸显。随着技术的不断迭代和优化，Vidu有望在影视制作、游戏开发、虚拟现实、教育和培训等多个领域发挥重要作用，为社会带来更丰富的视觉体验和更高效的内容生产方式。