国内首个纯自研Sora级视频大模型Vidu发布_

4月27日，“2024中关村论坛-未来人工智能先锋论坛”举行，国内首个纯自研Sora级视频大模型Vidu发布。主办方供图

中国青年报客户端北京4月27日电（中青报·中青网见习记者贾骥业记者尹希宁）对标Sora，我国进入视频大模型自研时代。在今天上午举行的“2024中关村论坛-未来人工智能先锋论坛”上，北京生数科技有限公司（以下简称“生数科技”）联合清华大学正式发布了我国首个长时长、高一致性、高动态性视频大模型——Vidu。

据介绍，Vidu采用研发团队原创的架构U-ViT，支持一键生成长达16秒、分辨率高达1080P的高清视频内容，不仅能模拟真实物理世界，还拥有丰富想象力，具备多镜头生成、时空一致性高等特点。与Sora一致，Vidu能根据文本描述直接生成长达16秒的高质量视频。

清华大学教授、生数科技首席科学家朱军在论坛现场展示了Vidu生成的视频，包括“在画室里驶向镜头的船”“戴珍珠耳环的猫”等。朱军介绍，Vidu还可以生成特有的中国元素，例如熊猫、龙等。

Vidu视频大模型生成视频截图。主办方供图

同时，Vidu生成的动态镜头视频，已经不再局限于简单的推、拉、移等固定镜头，而是能够围绕统一主体在一段画面里就实现远景、近景、中景、特写等不同镜头的切换，包括能直接生成长镜头、追焦、转场等效果，给视频注入镜头语言。

值得一提的是，Vidu生成的视频短片中的片段均为从头到尾连续生成，没有明显的插帧现象，这采用了“一步到位”的生成方式，文本到视频的转换是直接且连续的，在底层算法实现上是基于单一模型完全端到端生成，不涉及中间的插帧和其他多步骤的处理。

Vidu视频大模型生成视频截图。主办方供图

大模型的突破是一个多维度、跨领域的综合性过程，需要技术与产业应用的深度融合。发布Vidu的同时，生数科技还正式推出了“Vidu大模型合作伙伴计划”，邀请产业链上下游企业、研究机构加入，共同构建合作生态。据了解，生数科技公司的创始团队来自清华大学人工智能研究院，是全球范围内最早从事扩散概率模型研究的团队之一。

责任编辑：宁迪

头条号入驻

中国青年报历史的一份底稿

财经自媒体联盟更多自媒体作者

今日推荐优秀作者看点月榜

新浪财经头条意见反馈留言板

4000520066 欢迎批评指正

国内首个纯自研Sora级视频大模型Vidu发布

头条号入驻

“姚基金希望小学篮球季”大学生支教志愿者出征

团宁夏区委组织210余名大学生体验职场生活

深职大新增10个职业本科专业

财经自媒体联盟更多自媒体作者

热文排行榜