大模型在文生视频赛道的混战再度升级。12月3日,腾讯混元大模型正式上线并开源文生视频能力,支持中英文双语输入,一句话就能生成视频。据介绍,此次开源的视频生成大模型,参数量130亿,是当前最大的视频开源模型。
根据演示视频,记者看到,该大模型生成的视频写实度颇高,生成的画面不容易变形。在镜面或镜子场景中,可以做到镜面反射动作和外面同步,光影反射基本符合物理规律。
值得注意的是,此次大模型的文生视频能力开源。腾讯表示,本次开源包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费使用和开发生态插件。普通用户可在腾讯元宝APP-AI应用-AI视频中提交申请试用,企业客户可通过腾讯云提供服务接入,API同步开放内测申请。
从年初以来,腾讯混元系列模型的开源速度不断加快。此前,该系列大模型已经开源了旗下文生文、文生图和3D生成大模型。至此,该系列大模型已实现全面开源。
近段时间以来,视频生成大模型赛场如火如荼。生数科技打造的视频大模型Vidu上线,面向用户开放文生视频和图生视频两大功能;智谱AI正式发布视频生成大模型“清影”;商汤发布人物视频生成大模型Vimi;阿里达摩院推出一站式AI视频创作平台“寻光”;快手可灵AI正式上线网页端,并开源可控人像视频生成框架……
“视频的本质可以看成是多张图片的连续排布放映,在文生图大模型中,最被人们熟知的技术是扩散模型,它可以根据输入的文字描述,获取数据的内在结构和分布规律,从而生成单张图片。”一名业内人士解释称,在算力有限的情况下,决定视频质量的关键取决于数据的质量和数量,“目前,在视频生成大模型的比拼中,对物理世界规律的理解、高分辨率、镜头动作连贯性以及时长等,都是行业激战且有待提升的重要维度。”
来源:北京日报客户端
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有