实测国产视频生成大模型一个人“拍”一部剧？_

测试vidu、清影、可灵、即梦，视频生成效果如开盲盒

作者／ IT时报记者沈毅斌

编辑／潘少颖孙妍

“AI生成不仅可以降低影片制作、场景搭建、妆造设计等成本和时间，也降低了入局门槛，一个人就可能拍完一部剧。”上海大学温哥华电影学院副院长陈晓达曾向《IT时报》记者讲述视频生成大模型对影视行业的影响。

今年七月，国产视频生成大模型迎来爆发式增长。生数科技打造的视频大模型Vidu上线；智谱AI正式发布视频生成大模型“清影”；快手可灵AI、抖音即梦AI纷纷正式上线网页端……

在火热的国产视频生成大模型赛道，究竟谁家效果更好，最有可能“取代”演员？《IT时报》记者选取Vidu、清影、可灵、即梦四款国产头部视频生成大模型，采用统一的电影写实设定和提示词进行实测。

整体情况

●Vidu：页面主体十分简洁，左侧为输入框，可选择文本输入或图片输入。左上角的“设置”有写实和动画两种生成风格，生成的视频时长为4秒和8秒。需要注意的是，8秒生成时长需要付费订阅。右侧为输出框，用户可以看到此前的生成记录，并进行重新编辑，让视频更加完善。

●清影：作为“智谱清言”的一项功能，清影位于“智能体”功能键中，同样可以选择文生视频和图生视频。界面分为四个部分，左侧是功能模块、历史记录和视频预览。右侧是控制台，相比Vidu，清影拥有更丰富的参数设定，不仅可以选择3D卡通、油画、电影感等视频风格，还能选择情感氛围和运镜方式，实现更好的画面效果。

●可灵：除了文本输入框，可灵还有更为详细的参数调整，用户可以调整生成模式、生成时长、视频比例。最具特色的是创意想象力和创意相关性调整，初始状态参数为0.5，越靠近1与文本关联性越强，反之越趋近0创意性越强。在运镜方面，可灵拥有10种运镜方式，同时还可以选择不希望出现的内容，精准控制生成内容。

●即梦：即梦界面具备生成模式、生成时长、视频比例等多种调整功能。在右侧预览部分，可对生成视频进行延长时长、对口型、补帧、提升分辨率等调整，但都属于会员功能。即梦与可灵的区别在于运镜调整，采用上下左右、旋转、变焦等方式调整参数，可以更精细地调度镜头，同时还能控制镜头运动速度，达到想要效果。

场景一：城市多场景

提示词：在未来城市中，人形机器人有的在清扫街道，有的在家为居民做早餐，还有的在商场担任导购。

测试结果：即梦>可灵>Vidu>清影

●Vidu：《IT时报》记者输入提示词后，Vidu仅用1分钟左右就生成了一条4秒的视频，是四款大模型中最快的。从生成效果来看，画面符合写实设定，一开始展示出在街道上行走的人形机器人，一秒后切换为室内场景，展示出做早餐和商场指引的场景，每个场景的衔接都是直接切换。尽管Vidu可以实现多场景生成，但与文本关联性并不密切。第一个提示词中的街道场景出现的人形机器人只是在行走，并未清扫街道。而后两个场景都是真人完成的动作，并未出现“主角”人形机器人。

●清影：在输入提示词后，清影需要等待5—8分钟才完成生成，尽管选择写实风格，但生成画面依旧偏向3D动画。一个镜头是人形机器人用吸尘器快速清扫着街道，主体清晰背景却十分模糊。随着画面的快速运动，场景也从街道转为室内，人形机器人开始做早餐，但无论是背景还是主体，都较为模糊，尤其是人形机器人，已经发生严重畸变。最后进入单一场景，画面才变得清晰，人形机器人站在镜头前操控着数字屏幕导购。清影虽然可以理解文字意思，且在场景衔接处加入了过渡和转场，但模糊难以避免，畸变情况较为严重。

●可灵：在场景生成中，可灵并没有生成多个画面，仅一个未来商业场景就将清扫街道和导购两个任务涵盖其中，多个人形机器人穿梭在街道，执行不同的任务。由于做早餐属于室内场景，在视频中没能体现出来。但可灵生成的场景写实感较强，更符合记者所设想的画面，清晰度和流畅度也是最好的。不过，在第三秒时，画面中的一个人形机器人突然分裂成两个，细节还需要改进。

●即梦：从整体画面来看，即梦生成的视频偏向3D动画，同样以一个场景进行展现。画面中心是多个人形机器人利用清洁工具清扫街道；右侧是一个人形机器人与人类对话，完成导购指引；旁边的早餐铺虽不起眼，但能看出有机器人在做早餐。即梦也是所有大模型中多场景能力展现最好的，但画面动作幅度不大，更像是动图的感觉。

场景二：人物动作运镜

提示词：两位武侠在竹林间比武，镜头由远及近逐渐推至人物面部。

测试结果：清影>Vidu>可灵>即梦

●Vidu：Vidu能理解并展现“竹林”与“武侠”两个关键词，同时保持较强的写实感，生成的人物贴近真人。但在动作处理方面，表现一般，最直观的是两位武侠在比武过程中，一会是拳脚比试，一会手中又出现宝剑。镜头也没有由远及近推拉运动，直到最后一帧突然出现一张人物脸部特写，十分突兀。无论是画面精细程度还是连贯性，远不及场景一。

●清影：在测试的四款大模型中，清影的人物和场景畸变最为严重，从视频开头到结尾，两位武侠的动作幅度虽大，但十分模糊，面部轮廓也没能呈现出来，直到最后特写定格才快速生成出一张清晰的人脸。但在镜头运动方面，清影做到了由远及近推拉运动。记者重新生成一条同样的视频并加上旋转镜头后，清影依旧可以展现很强的运镜效果。

●可灵：可灵的画面采用俯拍视角，竹林间，两位身穿盔甲的士兵扭打在一起，看不清面部，也没有理解“武侠”一词。人物动作以推搡为主，不及前两家大模型。运镜方面，可灵生成的视频完全没有镜头运动，从始至终都保持一个角度和景别，让视频观赏性大大减弱。

●即梦：即梦注重人物面部呈现，视频中两位武侠紧贴在一起，脸部始终清晰，长袍束腰的服饰也符合中国武侠的形象。但人物以静止为主，直到最后才做出扭头和挥手的动作，没有比武打斗动作，也没有镜头运动。

场景三：动物拟人

提示词：一只参加奥运会的熊猫，完成体操项目比赛。

测试结果：Vidu>可灵>即梦>清影

●Vidu：一只与《功夫熊猫》非常相似、身着奥运五环红色背心的熊猫站在鞍马上举起上臂欢呼，随后弯下腰跳下鞍马，这是Vidu在场景三中生成的画面。与之前不同的是，Vidu在此轮测试中采用3D卡通风格，更符合动物拟人形象。动作方面符合逻辑且没有出现重影、卡顿，是目前测试中效果最佳的视频。

●清影：用同一提示词生成两条视频后，清影没能呈现出清晰的熊猫形象。视频中位于鞍马上的熊猫一直背对用户，做出一个翻滚动作后，黑白配色便开始错乱，重影、模糊等问题明显，背景中的观众也会随着画面抖动。尽管只有6秒时长，但每一个画面都存在形变。

●可灵：可灵依旧保持写实风格，熊猫以动物形象呈现，没有拟人效果。它对着镜头缓慢爬行，随后伸个懒腰便坐了下来，整体动作行云流水，并未出现形变、重影，也符合熊猫的行为逻辑。不过，在体操表现上不足，除了一块蓝色的体操垫，便再无体操元素。虽然整体生成视频与提示词的关联性不强，但画面质量、动作流畅度在四款大模型中较好。

●即梦：画面单一、动作幅度小是即梦生成视频的特点，在场景三中，即梦依旧没能改变这一现象。画面中的熊猫保持动物形态用四足站在鞍马上，但在运动过程中，熊猫增加了一条腿，对熊猫的物理运动方式不能完全理解。